微软发布三款自研大模型:一边安抚OpenAI,一边打出“骨折价”!

  4 月 3 日消息,美国时间周四,微软旗下研究部门 Microsoft AI 宣布推出三款基础人工智能模型,全面覆盖文本、语音及图像生成领域。

  此举表明,微软在维持与 OpenAI 深度合作的同时,正持续构建自主的多模态 AI 技术栈,以应对同业竞争。

  官方新闻稿显示,MAI-Transcribe-1 语音转录模型支持 25 种语言,处理速度达微软现有 Azure Fast 服务的 2.5 倍;音频生成模型 MAI-Voice-1 支持创建自定义语音,1 秒内可生成 60 秒音频;MAI-Image-2 则定位为图像生成模型。

  目前,上述三款模型均已上线 Microsoft Foundry 平台,转录与语音模型亦同步登陆 MAI Playground 测试平台。此前,MAI-Image-2 已于 3 月 19 日在该测试平台首发。

  该系列模型由 Microsoft AI 首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)领导的 MAI 超级智能(MAI Superintelligence)团队研发。该团队于 2025 年 11 月正式组建并对外公布。

  苏莱曼在官方博客中表示,团队秉持“人文主义 AI”理念,模型开发侧重优化自然交互体验及实际应用落地。他透露,未来将在 Foundry 平台及微软自有产品矩阵中部署更多自主模型。

  面对当前大模型市场的白热化竞争,微软打出了“价格牌”。官方明确表示,这三款模型的核心竞争优势之一,正是其定价远低于谷歌与 OpenAI 的同类竞品。

  具体费率方面,MAI-Transcribe-1 定价每小时 0.36 美元起;MAI-Voice-1 每百万字符 22 美元起;MAI-Image-2 的文本输入与图像输出成本,则分别为每百万词元(Token)5 美元和 33 美元起。

  一方面,微软在加紧自研步伐;另一方面,其对外部盟友的安抚也未曾停歇。苏莱曼在接受 VentureBeat 采访时重申,微软与 OpenAI 的合作承诺不会动摇。但在与 The Verge 的对谈中,他也透露了一个关键细节:正是双方近期重新修订的协议条款,为微软实质性推进自身的超级智能研究扫清了障碍。

  迄今为止,微软已向 OpenAI 豪掷超 130 亿美元,并通过长效合作机制将后者的模型全面接入自家产品生态。从底层算力到上层模型,微软的战略意图已彻底浮出水面:正如在 AI 芯片领域“自研+采购”的双线布局一样,在基础大模型赛道上,微软同样选择了“两条腿走路”。(易句)