出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
最强的编程 AI,到底降没降智?
今年 2 月初,Anthropic 发布 Claude Opus 4.6,其凭借着深邃的推理逻辑和对复杂代码规范的精准执行,被业界奉为代码真神。
然而好景不长,发布仅数周后就不断有用户在社交媒体上声讨,称其性能出现了断崖式下跌。

不少用户声称自己付着同样高昂的月费,换来的却是一个被明显降智的缩水版本,Opus 4.6 开始变得懒惰与健忘,甚至在基础逻辑里反复撞墙。
面对全网的声讨,Anthropic 官方团队出面回应,他们辩称从未削弱模型,种种异常表现只是为了帮用户节省 Token 而做出的默认配置优化。
这种单方面的技术辩解显然无法平息开发者的怒火。
这究竟是大量用户的集体心理错觉,还是资本在算力瓶颈下精心炮制的缩水?
一、AMD 高管的深度分析:6852 份日志见端倪
如果说普通用户的抱怨只是体感,那么斯特拉·劳伦佐(Stella Laurenzo)的分析,则是让这件事彻底“实锤”了。
根据领英资料,劳伦佐是 AMD 的 AI 部门高级总监,目前在 AMD 领导一支庞大的团队为开源 AI 编译器开发贡献力量。她曾在谷歌担任首席软件工程师,后作为前 Nod.ai 工程副总裁加入 AMD。
4 月 2 日,劳伦佐在 GitHub 上发布了一份详尽的性能回溯报告。
作为一名顶级 AI 专家,她没有只凭直觉说话,而是详细分析了 6852 份 Claude Code 会话文件与 17871 个思考块以及超过 23 万次工具调用记录,堪称一份详尽的高水平个案研究。

这份基于海量数据的分析揭露了一个令人不安的真相,从今年 2 月份开始,Claude 的推理深度就出现了断崖式下跌。
细节信息显示:
推理字数缩减:中位思考长度从 2200 字符缩减到了 600 字符。
研究退化:以前 Claude 在写代码前会进行多轮研究(Research),现在的模式变成了直接上手改(Edit),这导致读取与编辑的比率从 6.6 倍降至 2.0 倍。
任务早退:在短短 17 天内,Claude 尝试放弃任务或反问我是否应该继续的次数达到了 173 次,而在 3 月 8 日之前这个数字是0。
自相矛盾:推理过程中的自我否定(如“哦等等,实际上……”)频率增加了三倍。
劳伦佐的结论非常冷酷,对于高级工程工作流来说,深度推理不是奢侈品而是模型可用的前提,现在 Claude 在复杂工程中已经靠不住了。
不过需要注意的是,劳伦佐的分析结论只是说今年 2 月底 Claude 思考长度缩短了 67%,推文将思考量减少直接等同于智力下降的说法难论严谨。
二、社交媒体的证言墙:40 分钟的思考与无效的账单
劳伦佐的帖子迅速引爆了社交媒体X和 Reddit,无数开发者发现自己遇到的问题与这份报告高度契合。
网红开发者奥姆·帕特尔(Om Patel)直接在X上贴出了结论,有人测出了 Claude 变笨了多少,答案是 67%。
他的论点主要集中在 Opus 4.6 的思考量比以前少了三分之二。他讽刺地写道,Anthropic 一直保持沉默,直到这些数字被公开,他们的团队才出来灭火。

帕特尔还在推文中透露,泄露的源代码显示他们有一个内部开关,可以让模型在 Anthropic 员工使用时保持最佳状态。不过这一说法尚未得到独立验证,Anthropic 也未对此作出回应。
他还直言,有人说 Anthropic 故意降低 Opus 的性能,是为了节省计算资源来训练他们的下一个模型 Mythos。但这一推测同样缺乏直接证据。
在 Reddit 上,用户们的吐槽则更具具像化,也更显无奈:
坐等式思考:用户 DangerousSetOfBewbs 称他曾让 Claude 处理一个 500 行的文件,结果 Claude 进入了长达 24 分钟的思考中状态,只是在那里干坐着。还有网友附和,让它做研究,40 分钟几乎没用什么 Token,所以根本不清楚它这 40 分钟到底做了什么。

规则视若无睹:许多开发者习惯在 CLAUDE.md 中设定项目规范,但现在 Claude 仿佛患上了失忆症。一位用户愤怒地留言,如果你不盯着它的输出,它能分分钟毁掉你的代码库。

价格没变智力降级:这就是典型的缩水通胀。Reddit 用户 Firm_Meeting6350 说,我今天退订了 Claude Max 20 并转投了 Codex Pro,Claude 现在给我的感觉就像在用过时的旧模型。

三、跑分迷雾:从第 2 名到第 10 名的跌落
如果用户抱怨还可以解释成主观感受,那么基准测试则似乎要拿真实数据讨说法。
4 月 12 日,专门负责幻觉基准测试的机构 BridgeMind 发布了一条推文,直接将争议推向高潮。
推文指出 Claude Opus 4.6 被削弱了,BridgeBench 刚刚证明了这一点。上周它排名第 2 且准确率 83.3%,今天重测它掉到了第 10 且准确率仅剩 68.3%,幻觉率增加了 98%。

然而这一测试结果遭到了反驳。外部 AI 研究员保罗·卡尔克拉夫特(Paul Calcraft)随后指出测试中存在误导性,BridgeMind 的两次测试并不是对等比较。第一次测试只涵盖了 6 个任务,而第二次测试扩充到了 30 个任务。

卡尔克拉夫特指出,如果只看那 6 个共同的任务,Claude 的得分仅从 87.6% 轻微波动到 85.4%,最大的偏差几乎来自于单个虚构结果,这种差异在统计学上完全可以归类为噪音。
这场跑分争议本身也说明,目前业界缺乏统一且可复现的 AI 性能基准测试标准,很多测试颇有先下结论后找论据的风格,用户很难从测试数据中获得确定性的答案。
然而那个跌落至第 10 名的数据在社交媒体上疯传,截图给人的视觉冲击力使其成为了 Claude 降智这一说法的最有力佐证。

四、官方回应:是优化而非削弱
面对汹汹民意,Anthropic 的核心团队成员不得不公开回应。
Claude Code 负责人鲍里斯·切尔尼(Boris Cherny)在劳伦佐的 GitHub 原文下认真解释了一通,并在X上连发数条回复,核心观点只有一个,他们没有削弱模型,只是为了响应用户反馈调低了默认的努力程度。

切尔尼表示,很多用户此前反馈 Claude 消耗 Token 太多。为了响应用户反馈,Anthropic 做了以下改变:
默认努力度降级:在 3 月 3 日默认将推理努力度设置为中等,如果你想要深度推理,需要手动输入对应高级指令。
前端隐藏思考过程:改变了前端显示,不再完整展示思考块,减少了延迟,但这不影响思考预算或后端的深度推理。
自适应思考机制:在 2 月 9 日引入了动态调整机制。
Claude Code 团队成员塔里克·希希帕尔(Thariq Shihipar)也力挺自己的部门老大,他连发数条推文用技术层面的解释打消用户疑虑,还坚称公司不会为了更好地满足需求而降低模型性能。

值得注意的是,切尔尼提到的默认努力度降级,恰好可以解释劳伦佐分析报告中的思考长度缩短与研究行为减少以及任务放弃频率上升等多种现象,这与推理处于中等的默认设置高度吻合。
然而官方解释并不能平息众怒,社交媒体上很多用户都认为,如果为了帮用户省钱而降低性能或者给出错误答案,那这种省钱根本毫无意义可言。
何况公司没通知就直接进行了调整,直接损害了用户的知情权。
五、幕后暗战:缓存生存时间与算力瓶颈
除了推理深度的变化,不少用户还注意到 Claude 变得更贵了。
GitHub 上一份编号为 46829 的反馈指出,Claude Code 的提示词缓存生存时间从原本的 1 小时被缩短到了 5 分钟。

这意味着对于长时间工作的程序员来说,你刚才跟 Claude 说的话,5 分钟后它就忘了。为了继续工作,你需要重新上传上下文。
这不仅增加了延迟,更让用户的 Token 消耗量激增,使得一些订阅用户开始触及以前从未遇到的使用上限。
Anthropic 工程师贾里德·萨姆纳(Jarred Sumner)承认了 3 月 6 日的这一改变,但辩称这是为了持续的缓存优化工作而不是暗中降级。在开发者眼中,这无异于证实了官方确实在后台积极调整缓存行为,而这正是大家抱怨配额消耗过快的时间段。
不管是 Claude 变笨也好变贵也罢,Reddit 网友 raven2cz 的说辞堪称一语中的。
这两大问题也就是额度限制和思考能力下降都与基础设施过载密切相关,去 GitHub 上看看就知道了,成千上万的用户现在都在面临类似的问题,这情况感觉就像一年半前 GPT 发布新模型时一样。

网友 Wickywire 则分析了其中的根本原因,Anthropic 在两个月内日活用户从 400 万涨到了 1100 万,他们完全没有准备并不得不全天候连轴转去拼命扩容,这就是所谓削弱的真相。你去对时间线,和二三月份发生的事完全吻合。
这里没有任何隐藏的意图,只是一个经历增长之痛的公司,硬件与能源的瓶颈是真实且证据确凿的。
我们知道原因所在且它们都是结构性的,所以解决办法也确实有限,在 Reddit 上反复纠结毫无意义。

这位网友给出的解决方法倒是立竿见影且切实可行,如果你觉得 Claude 表现不佳可以试试在非高峰时段使用,如果不行换别家 AI 服务商也行,反正又不是没有选择,真是受够了那些在论坛上抱怨使用量和性能下降的人了。
六、结语:信任危机比变笨更可怕
目前的局面是,用户在描述体感,而 Anthropic 在描述参数。
用户觉得它变笨了且任务失败了,官方则表示没有动权重,只是改了默认努力值与缩短了缓存以及调整了前端显示并公开披露过。
这两种描述其实并不矛盾,在 AI 领域即便公司认为自己没有在底层削弱模型,但微妙的设置变化和配额限制,对全天候依赖它的开发者来说体验上与变笨毫无二致。
当开发者开始怀疑一个工具的稳定性时,这种信任的裂痕是极难修复的。
尤其是在强敌环伺的当下,OpenAI 的 Codex 正在步步紧逼,它凭借更稳定的算力输出与灵活的中阶订阅及全新的交互功能,精准收割失望的开发者。
第三方开发者调研工具显示,自今年 3 月底 Claude 降智传闻发酵以来,Codex 及其相关插件的周新增用户量环比增长了约 22%。
如果 Anthropic 无法在节省算力成本与维持深度推理之间找到真正的平衡点,那么 Claude 辛辛苦苦建立起的口碑恐怕将在这场风波中受到考验。
有老用户所说,我宁愿付两倍的钱买一个聪明的 Claude,也不愿花同样的钱买一个只会说道歉并要求更多信息的笨蛋。
这场 AI 界的性能拉锯战才刚刚开始。
