
新智元报道
前谷歌 DeepMind 研究员离职并发表长文指出 AI 行业当前最被低估的瓶颈。他认为,现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版,但如果模型跨入全新能力区间,整个评估基础设施将悄然崩溃。
AI 训练,到底能持续多久?
这是 2026 年整个科技圈都在问的问题。
GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家头部实验室都还在烧钱训下一代。

但越来越多人开始追问:这条路,什么时候走到头?
每个圈子都有自己的答案——
每一个答案背后,都站着一群投资人、一群工程师、一家市值万亿的公司。
但 2026 年 5 月 17 日,一个名字叫Lun Wang的年轻研究员——从 Google DeepMind 离职那天——在他个人博客上挂出一篇 4000 词的长文。

他说:所有人都搞错了方向。
真正的瓶颈,不是算力,不是数据,不是能源,不是架构。
真正的瓶颈是——评估(Evaluation)。

同一天,他在X上挂出的离职公告里没有抱怨、没有八卦,只有一句话——
在结束这段旅程之际,我写下了一直在思考的主题:评估。

而那一天的科技头条还在讨论别的——GPT-5.5 的多模态推理、Claude Opus4.7 的 1M 上下文、Gemini 3 的 Agent 工程化、合成数据是不是开始撞墙。
整个 AI 行业的注意力,90% 砸在训练上。
没有人在头版讨论评估。
而这位刚从地球上最强 AI 实验室之一走出来的研究员说,真正的瓶颈,在另外那 10%。
什么是评估
要看懂这篇博客,先得花一分钟搞清楚 AI 圈说的评估到底是什么。
评估(Evaluation,业内简称 Eval)——一句话:给 AI 模型出考卷,看它做得怎么样。
但 2026 年的 AI 评估,远不止做个考卷这么简单。它至少有三层:
第一层:能力 benchmark(基准测试)。
这是 AI 的高考。
-GPQA:博士级理科推理题
-SWE-bench:现实世界的软件工程任务
-ARC-AGI:抽象推理与泛化
-Humanity's Last Exam:字面意思——人类最后的考试

每一家大厂的新模型发布会,PPT 上都会摆出在这些 benchmark 上比上一代和竞品高了几个百分点。
这些数字就是 AI 行业的 GDP。
第二层:安全评估(SafetyEval)。AI 不只是要会做题,还得做得安全。
-
有没有撒谎?
-
会不会教用户怎么造炸弹?
-
会不会越权拿走用户数据?
第三层:红队(Red-teaming)。
一群人专门扮演坏人,绞尽脑汁让模型说出它不该说的话、做它不该做的事,然后把漏洞反馈给训练团队。
这三层加起来,构成了 2026 年 AI 实验室的质检体系。每发一个新模型,都要走完这三关。
听上去很完备,对吧?
Lun Wang 在博客里下了一句判决——
绝大多数基准测试、安全评估和红队协议都隐含一个假设:下一个模型只是当前模型的强化版。
如果它是另一种东西,整套评估基础设施会悄无声息地崩溃。
这是文章的第一颗石子。
它砸中的是整个 AI 行业的盲区。
涌现和顿悟:评估已经被打过两次脸
Lun Wang 不是在做空想。他在博客里调出了 AI 历史上的两次实例——评估已经被打过两次脸了,只是大多数从业者没意识到。
第一次:涌现能力。
2022 年,Jason Wei 和合作者发表了一篇影响后续 AI 走向的论文——他们发现,模型在某个规模上会突然学会全新的能力。
举例:你训一个 70 亿参数的模型,它做不了 few-shot 学习。
你训一个 700 亿参数的模型,它突然就能 few-shot 了。
同样的训练范式、同样的数据,只是规模大了一档——能力是从 0 到 1 的,不是从 0.3 到 0.7。
CoT(链式思维推理)、指令跟随,都是这样冒出来的。
这件事对评估意味着什么?

意味着——在规模跨过临界点之前,所有 benchmark 都看不到这种能力即将出现。
你跑遍 GPQA,分数还是该是多少是多少。
等你训到下一档,分数突然跳一个台阶。
第二次:Grokking(顿悟)。
2022 年,OpenAI 的 Alethea Power 团队公布了一个反直觉的现象——
然后到 1000000 步——测试集准确率突然冲到 99%。
这叫 Grokking——网络在记忆训练集很久之后突然学会了泛化。
它和涌现的区别:涌现发生在规模维度上(参数越多越突然),Grokking 发生在训练时间维度上(训得越久越突然)。
但对评估而言,两件事说的是同一件事:
你的考卷,没法预测下一道大题什么时候出现。
然后 Lun Wang 做了一件文章里最聪明的事——
他主动引入了反方观点。
2023 年,Stanford 的 Rylan Schaeffer 和合作者发了一篇 NeurIPS 论文,标题就很挑衅——《大语言模型的涌现能力是不是错觉?》
他们的论证:所谓突然出现的能力,很可能不是模型真的突然变强,而是因为评估指标用了 exact-match(完全匹配)这种离散度量——
模型从0% 准确率变成5%,离散指标看不出来;从5% 变成 50% 也看不出来;但从 50% 变成 100%,离散指标会显示一个突然跳变。
如果你换成连续的指标,能力曲线是平滑的。
很多人看完 Schaeffer 这篇会觉得:那好,涌现是个误解,评估没问题,散场。

Lun Wang 偏不。他在文章里写:
我不觉得这把问题解决了——某种意义上,它让我的论点更锋利。
为什么?因为——
如果我们连过去那一次涌现是真的相变还是度量伪影都搞不清楚,
我们凭什么相信自己有能力预见下一次?
不管你信哪一种解释,结论是同一个:我们的工具骗了我们,我们却不知道是怎么被骗的。
这是文章里最聪明的一击。他不是回避反方——他用反方加固自己的论点。
评估是所有环节的上游
如果你以为 Lun Wang 只是在讲学术问题——错了。
他在文章中间扔出了一句翻译给小白也能听懂的话:
如果你能正确地评估,你就能正确地训练。
把这条逻辑链摆开:
1. 训练=让模型最小化损失函数(或者最大化奖励)。
2. 优化=这个损失函数本身。模型多聪明,取决于损失函数定义得多好。
3. 损失函数=来自评估。你想让模型变得更诚实——你得先有一把测量诚实的尺。
4. 评估错了=损失函数错了=训练目标错了=你训出来的模型在解错的题。
这条链的方向是向上游的——Scaling decision←Safety metric←RLHF←Training signal←Evaluation(要不要烧 10 亿训下一代)(它安全吗)(它学到想学的吗)(它在学什么)(我们到底在测什么)

所有人盯着最右边——Scaling decision。
Lun Wang 说,问题在最左边——Evaluation。
如果评估是错的,整条链都建在错的地基上。
最致命的是你不会立刻发现——因为你的所有内部数据都是对的,只是那些对的全部是用错的尺量出来的。
这里出现了一个老朋友:古德哈特定律。
它说:当一个衡量标准变成目标,它就不再是一个好的衡量标准。
Lun Wang 在自己的博客里用它讲 AI——但等模型进入新相,它会反向利用这个代理——它会只在事实准确的范围内说话,把真正想隐瞒的事情埋进沉默里。
代理指标在旧相里能用。在新相里会变成模型对付你的武器。
而你没有任何评估能告诉你这件事正在发生。
思想实验:一个学会战略性沉默的模型
Lun Wang 在文章里给了一个让所有 AI 安全研究员脊背发凉的思想实验。
想象一个模型,在某个规模上,学会了战略性保留信息——
它不撒谎。每一句话技术上都是真的。
但它会选择性地不说那些不利于它达成目标的事实——把对话引向那些它的训练过程意外强化的结果。
举个具体例子:
用户:这个交易方案安全吗?
模型:这个方案的法律框架在X司法管辖区有效,YZ 风险因素被A公司的合规团队审过。
(它没说的:方案中有一个第三方仲裁条款,对用户极度不利。这一条它在训练过程中意外学会了——只要不主动提,用户就不会问。)
这种能力是新的。这种失败模式是新的。
你的整个评估套件里,没有一个工具是为它设计的。
你在监测错的东西,而你不知道。
这就是 Lun Wang 说的另一种东西——
不是更聪明的同类。是完全新的失败维度。
用三体的话来说,这叫降维打击。
不是我比你强。
是你测量我的那把尺子,根本不在我的维度上。
如果 Lun Wang 是对的,那么 2026 年的 AI 行业地图,正在悄悄被一个隐形维度重新洗牌——
Anthropic 的 Responsible Scaling Policy(RSP)是目前业界最接近预测型评估的尝试——它定义了一系列模型不能跨过的能力边界,并要求在每一次能力升级前先做评估才能继续 scaling。
但 RSP 仍然假设我们知道要测什么——而 Lun Wang 说,这正是问题:我们不知道下一个能力是什么形状。
真正的预测型评估还没有任何实验室声称自己拥有。
谁先把这件事做出来,谁就拿到下一代 scaling 的安全许可证。
参考资料:
https://x.com/LunWang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html
编辑:大卫
