微软 AI 团队一次性发布转写、语音生成和图像生成三款基础模型,并同步接入 Foundry 与 Playground,释放出减少对外部模型依赖、强化自有平台定价权的明确信号。
微软 AI 团队宣布推出三款新的基础模型:语音转文字的 MAI-Transcribe-1、音频生成的 MAI-Voice-1,以及图像生成模型 MAI-Image-2,并已接入 Microsoft Foundry,前两者也进入 MAI Playground。官方称,转写模型覆盖 25 种语言,速度比 Azure Fast 方案快 2.5 倍;语音模型可在 1 秒内生成 60 秒音频,并支持自定义音色。
这件事重要,不只是因为微软又发了几个模型,而是它说明微软正在更明确地补齐自己的多模态底座。过去微软在生成式 AI 上高度绑定 OpenAI,如今则开始把“自研模型 + 自有平台 + 产品落地”串成闭环。微软 AI CEO Mustafa Suleyman 也明确表示,后续还会有更多模型进入 Foundry 和微软产品。
对开发者和企业来说,这意味着模型选择会更多,价格战也可能更快到来。微软若能把模型能力、云服务和办公生态进一步打通,会直接影响 OpenAI、Google 等厂商在企业侧的竞争格局。对于用户而言,最终变化可能体现为更低成本、更快响应,以及更多原生嵌入 Office 和 Azure 的 AI 能力。
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。
