
新智元报道
硅谷大佬站台,社区却吵成一锅粥。MiniMax M3 能不能经得住真刀真枪的验货?全球开发者已经上手了。
就在最近,国内外都被同一个模型刷屏了。
坐拥 540 万粉丝的 Vercel CEO Guillermo Rauch,极为罕见地公开站台。
他推荐的,是一个完全来自中国的模型——MiniMax M3。

然而,同样是这个 M3,吐槽的声音也不小,很多国内社区的评论区里直接吵成一锅粥。
很多评论的火力,都集中在 Token Plan 的价格调整上。许多老用户觉得自己的权益缩水,闹翻天了。



而国外社区的画风,则跟国内完全不同。
有的海外开发者,在猜 M3 的架构参数、稀疏注意力机制和训练数据规模。
比如X上的网友 Rohan 说,单看价格没意义,虽然成本也很重要,但他更想知道模型犯错的方式以及在 Agent 系统里的实际表现。

另一位网友态度更直接,他认为,「M3 作为开源模型能紧追 Opus 和 GPT-5 已经很厉害了,不过在信这些宣传之前,我得亲眼看看它现场翻车。」

面对这些外界评价,MiniMax 官方反应很快,当天就发了补偿方案:老用户保留原有权益,新用户周限额加赠 50%。
价格的事解决了,接下来,最为实质的问题是:M3 到底是真强,还是「刷榜」的幻觉?
72 小时
一场席卷全球开发者的「硬核验货」
为了验证 M3 的真实表现,开发者 Victoria Wu 把同一个 Prompt(让 AI 生成一只鹈鹕骑自行车的动画)分别喂给 M3、Sonnet 4.6 和 Opus 4.8。
然后,把三个结果标为A、B、C,让网友盲猜哪个是 M3。

评论区几乎一边倒,「A太丝滑了,肯定是 Opus」「M3 应该是B或C吧」。


结果揭晓。A就是 M3。


无独有偶,开发者 JAZII 也做了一组盲测级别的对照实验。
他使用了完全相同的 Prompt,要求模型用 Three.js 在 HTML 中从零手搓一个《我的世界》的克隆版,参赛选手是 M3 和 Opus 4.8。
虽然 M3 在耗时略长一些,但在最终的代码运行结果上,JAZII 给出了两个字:「Super close」。

左边是 M3 右边是 Opus 4.8,你猜对了吗
X 上的中文开发者「实践哥 minli」则把 M3 的多模态和 Agentic Coding 能力压榨到了极限,用 M3 硬生生做出了一个「凡人修仙传」手势对决游戏。
在这个过程中,M3 需要理解复杂的视觉手势,并完成超长程的逻辑代码编写。一条龙跑通下来,Token 的消耗仅仅是 Claude Sonnet 的 20%。

向来以严苛著称的 AI 测评人 Thomas Wiegold,也在第一时间放出了一篇 3000 字实测报告。
他对于 M3 的评价是:「这是我今年测过的最有意思的模型之一。」

上一次中国模型能引起硅谷震动的中国模型,还要追溯到半年前 DeepSeek V4 的发布。
而这一次,MiniMax M3 带来的震撼似乎更加立体。
50 页论文扔进去,M3 自己拆了
光看别人测不过瘾。我们自己上手,专门挑了两道最能压榨模型的题。
第一道,是长达 50 页的 DeepSeek-V3 技术报告。图表密集、公式和伪代码交织,信息密度拉满。

首先,让 M3 梳理一条关于「底层通信与计算重叠」的因果技术链条,看它能不能把这篇论文里最硬核的工程逻辑理清楚。

M3 全程思考了 15 次,执行了 19 条命令,调用了 1 个工具。

最终它把 DualPipe 调度策略的完整实现路径拆得明明白白,逻辑链条没有断点。

接下来要考的是 M3 的多模态能力。
上传一张 MLA 结构图,然后要求模型找到图中动态调度和投影过程对应的是正文里哪几个数学公式。

M3 很快给出了对应解析,精准命中。
![]()
难度继续加码。如果图中某处连线在正文的文本描述中其实藏着更深层的隐藏约束,让 M3 指出它在图中的视觉位置,并解释背后的原因。
M3 直接在那张 MLA 架构图上加了标注,并给出了三条约束的详细拆解。


一场 2 小时的 GTC 演讲,M3 直接出稿
第二道题难度升级,不光要读懂,还得写出来。
这次的素材是英伟达 GTC 大会长达 1 小时 57 分钟的完整主题演讲,连同写作规范,一股脑全甩给了 M3。
一句 Prompt,看完视频,按规范出一篇 3000-40000 字深度报道。

面对 1.15GB 的原始视频,普通的 AI 工具多半只能报错退场。
但在 MiniMax Code 系统级工具箱的加持下,M3 当场就找到了解决方案——
调用 ffmpeg 完成了压缩和切段,自己给自己铺出了一条能走通的路。



12 段全部吃完后,M3 交出了一份惊艳的素材清单。
时间戳精确到分钟级,画面细节抓得极细。
老黄身上那件带鳞片纹理的黑色皮夹克、从裤兜掏出 N1X 芯片高举过头顶整整 15 秒的特写、推 Vera Rubin 真机上台时调侃「后面大概有 2000 个人在拉」,全部在列。
就连老黄突然蹦出的那句中文「太多东西了」,它都没有放过。

更狠的是,M3 还甩出了自己认为全场最炸的三个点,每个都自己的判断理由。

确认素材清单后,M3 开始动笔。
开篇从老黄掏裤兜的画面切入,结尾升维到「这条产业链的主人,正在从人变成 Agent」。
初稿 3500 字,40 分钟交卷。
虽然还达不到我们的发稿水平,但它提供了一个质量足够高的起点。


多模态看完 2 小时视频,长上下文把全部素材+写作规范+范文装进同一个窗口,Agent 能力负责遇到什么解决什么。
M3 的三大核心能力在这个任务里被彻底压榨到极限,缺任何一项都做不成。
12 个模型的成绩单,M3 自己做了张全景图
第三道题换个方向,不考长文本,考读图+联网+搞工程。
各家模型发布时都会贴一张 benchmark 对比图,但格式五花八门,有表格、有柱状图、有雷达图,数据口径也不统一。
想横向对比,得自己一张张翻、一格格对,极其痛苦。
这次直接把十张来自不同模型官方 blog 和第三方评测平台的 benchmark 截图扔给 M3,让它自己看懂所有图表,联网补全缺失数据,统一口径,做成一个可交互的对比大屏。
M3 先逐张识别截图里的模型名称和分数。碰到格式不同的图表,自己做归一化处理。截图里缺的数据,直接联网查官方源补上。

最终输出了一个 Bloomberg Terminal 风格的深色交互大屏。
12 个模型,14 项 benchmark,综合排行榜、雷达图对比、单项柱状图、价格/性能散点图,四个模块一次到位。


三项能力,一次拉满
三道题做下来,M3 的能力边界已经很清楚了。接下来的问题在于,它凭什么做到的。
答案是三项核心能力同时到位,前沿级编程、1M 上下文窗口、原生多模态。

它们的基底,是一个叫 MiniMax Sparse Attention(MSA)的全新注意力架构。
传统注意力机制处理百万级上下文时,计算量呈指数级爆炸,GPU 的显存和算力会被榨干。
MSA 用块级稀疏的方式干掉了这个瓶颈。
在算子层,它让每一块 KV 数据在内存中只读一次、访存完全连续,不做任何重复搬运。
效果,只能用暴力来形容。
100 万上下文的恐怖规模下,M3 每个 token 的计算量被硬生生压到了上一代的1/20。预填充加速超过 9 倍,解码加速超过 15 倍。
多模态这边同样凶狠。M3 绝不是先训好文本再外挂一个视觉模块的拼接货。
它从训练第一步起,文本、图片、视频就是混在一起喂的。为此,研究团队还重构了整条数据管线,并且将预训练规模直接拉到了 100T 量级。
结果就是,M3 在 Artificial Analysis 综合智能指数榜上,直接拿下了开源模型的全球最高排名,位列全球第七。

GPQA Diamond 科学推理榜上,M3 拿到 93.2%,排进全球前四,比 Claude Opus 4.8 和 Opus 4.7 都高。
长上下文推理榜上,M3 以 74.0% 跻身前六,和 GPT-5 系列贴脸。
GDPval-AA 真实任务 Agent 榜上,M3 的 1670 分排在全球第五,和 Sonnet 4.6 只差 6 分。
每张榜的测评维度不同,但 M3 的位置始终卡在同一个区间,闭源第一梯队的门槛线上,开源模型的最前面。



左右滑动查看
在知名的第三方多模态榜单 Vals Index 上,M3 也冲到了全球第六。
这是目前国内开源模型的最好成绩,也是开源模型里的全球最高排名。

从综合体感来看,M3 已经稳稳跨过了 Claude Sonnet 4.6 这条线。
虽然距离最强的 Opus 4.7 和 GPT-5.5 还差一口气,但毫无疑问,它已杀入死亡之组。
一个 Agent 不够,那就上一个团队
那接下来的问题就很自然了,这么一个模型,拿什么来跑它?
前面实测里 M3 调 ffmpeg 切视频、40 分钟出稿,就是在 MiniMax Code 上跑的。
但那还只是单 Agent 在干活。这次升级最值得聊的,是 Agent Team。

用过 AI 编程工具的人大概都有过这种体验。
你给 Agent 布置了 7 件事,它做完 3 件就停下来汇报,「我已经完成了1、2、3,是否需要继续?」。或者跑着跑着风格突变,前面还像个靠谱的工程师,后面忽然开始说胡话。
对此,Agent Team 的做法是把裁判和选手拆开。
Leader 负责理解目标、拆任务、调度。Worker 负责具体干活,不同 Worker 有不同的工具和上下文。Verifier 负责验收,专门和 Worker 唱反调。
Worker 做完了,Verifier 开始挑毛病。挑出问题,打回重做。Verifier 检查完了,Worker 拿着修改意见重新来过。这个对抗循环不靠模型自己判断什么时候该停,底层有一套状态机引擎在管。

实际体验上最爽的一点,你发一条消息,M3 秒回确认,同时后台多个 Worker 已经并行跑起来了。
中途你追加一个新需求,「顺便帮我查一下这个」,Leader 当场响应,后台任务不停。
像极了一个能秒回你微信、同时还在帮你干活的同事。

M3 的模型能力加上 MiniMax Code 的 Agent 团队——一个负责想,一个负责干,两者结合,开启了无尽的想象力。
风波过后,大家的注意力终于又回到了 M3 本身。
而接下来,真正关键的一步来了:它的权重与完整技术报告,将在十天内开源。
届时,全球开发者会用真实项目给它打分。
