行业资讯 · 2026年4月5日

微软连发三款多模态基础模型，正式加码自研 AI 栈

微软 AI 团队一次性发布转写、语音生成和图像生成三款基础模型，并同步接入 Foundry 与 Playground，释放出减少对外部模型依赖、强化自有平台定价权的明确信号。

微软 AI 团队宣布推出三款新的基础模型：语音转文字的 MAI-Transcribe-1、音频生成的 MAI-Voice-1，以及图像生成模型 MAI-Image-2，并已接入 Microsoft Foundry，前两者也进入 MAI Playground。官方称，转写模型覆盖 25 种语言，速度比 Azure Fast 方案快 2.5 倍；语音模型可在 1 秒内生成 60 秒音频，并支持自定义音色。

这件事重要，不只是因为微软又发了几个模型，而是它说明微软正在更明确地补齐自己的多模态底座。过去微软在生成式 AI 上高度绑定 OpenAI，如今则开始把“自研模型 + 自有平台 + 产品落地”串成闭环。微软 AI CEO Mustafa Suleyman 也明确表示，后续还会有更多模型进入 Foundry 和微软产品。

对开发者和企业来说，这意味着模型选择会更多，价格战也可能更快到来。微软若能把模型能力、云服务和办公生态进一步打通，会直接影响 OpenAI、Google 等厂商在企业侧的竞争格局。对于用户而言，最终变化可能体现为更低成本、更快响应，以及更多原生嵌入 Office 和 Azure 的 AI 能力。

来源：TechCrunch · Microsoft Foundry

订阅工具岛 Newsletter

每周五发送最新的 AI 工具榜单、内容模板与增长实验，帮助你快速验证想法。

继续探索

继续你的阅读之旅

查看全部

AI Assistants

微软连发三款多模态基础模型，正式加码自研 AI 栈

订阅工具岛 Newsletter

继续探索

继续你的阅读之旅

MyBabes AI Review 2026: Is the AI Companion Platform Worth It?

EZSwap AI Review 2026: Free Face Swap Tested (Quality, Limits, Verdict)

DeepSwapFace Review 2026: Free Face Swap Tested (Quality, Limits, Ethics)