
新智元报道
传说中的 Claude Opus 4.8,性能真的如此强大吗?有人高呼封神,直言这是 Opus 5,有人吐槽太拉了,还不如 Opus 4.7,技术大佬也来拆台。是夯爆了还是拉完了?一文深度看透。
Anthropic 王者归来!
深夜,Anthropic 全新发布 Claude Opus 4.8,一举夺回全球 AI 王座。
Opus 4.8 被定位为一款更强大的复杂任务模型,尤其是在编程、智能体任务和长时间推理方面。
更狠的是,神秘的 Mythos 几周之内即将面世!

而且,趁着这股东风,Anthropic 紧接着宣布好消息——以 9650 亿美元估值完成 650 亿美元融资,超越 62 天前 OpenAI 的 8520 亿美元的估值!

不过,当人们实测过后,整个科技界瞬间分裂成了两个截然不同的阵营。

一方面,是以知名评测媒体 Every 和部分硬核生产力用户为首的「狂热派」。
他们高呼 Opus 4.8 已经「封神」,甚至直言 Anthropic 这次实在是太低调了,「他们完全可以直接叫它 Opus 5,根本不会有人有异议。」
他们直言,Opus 4.8 是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。

但另一方面,以 Ruby on Rails 创始人 DHH、Redis 之父 antirez 为首的「开发者老炮」,却在社交网络上公开拆台。
他们认为 Opus 4.8 的跑分虽然险胜老对手 GPT-5.5,但实际的「编码体感」却依然落后,甚至直指 Anthropic 在基准测试的宣传上犯了重大错误。
一方面,它的「快速模式」、「动态工作流」看起来都很杀手级,另一方面,桌面端的体验,似乎又很拉垮。

Opus 4.8 用起来的真实体感,究竟如何?
这是一次名不副实的挤牙膏,还是一次真正的大跃迁?
接下来,就让我们揭开全貌!

这不是 Opus 4.8,是 Opus 5!
首先,是以 Every 团队为代表的正方。
在长达一周的深度测试后,他们得出了震撼结论——这是我们测试过的最强模型,它简直是个怪物。
甚至可以说,它可以被叫做 Opus 5。


暴涨 30 分的「资深工程师基准」
在极难的「高级工程师基准」测试中,上一代 Opus 4.7 曾让无数开发者大失所望,被指责为「难以使用、难以热爱」。
但 Opus 4.8 这一次打了一场漂亮的翻身仗。
在「超高强度」模式下,Opus 4.8 拿下了 63 分的高分,不仅比 Opus 4.7 夸张地暴涨了 30 分,更是以 1 分的微弱优势,险胜了一直霸榜的 GPT-5.5(62 分)。

团队试着让它去彻底重构一个生产级别的代码库,结果 Opus 4.8 真的交付了一个能够完美运行的系统!

结果说明,Opus 4.8 绝不仅仅是一个补全工具,而是一个能在 Repo(代码仓库)级别进行长线思考的架构师。
79. 6 分全场最高:击穿「AI 感」的最强写手
如果说代码能力是理科生的浪漫,那么写作能力则是衡量模型 EQ 的终极标准。
在 Every 的写作基准测试中(涵盖论文、推广邮件、长篇叙事等真实场景),Opus 4.8 直接艳压一众模型。

Opus 4.8 跑出了79. 6 的绝对高分,远远甩开了自家兄弟 Sonnet 4.6(74.5)、老对手 GPT-5.5(73)以及前代 Opus 4.7(63)。
「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8 极大地减少了令人不适的「AI 味」。

当你给它一份风格指南后,它能异常精准地模仿你的语气。
它甚至展现出了极高的心理学和人际交往洞察力,当你试图和它探讨一些深刻的心理问题时,它的回答毫不敷衍,而是会「质疑你的预设框架」,提供丰富、动态且极其具有深度的思考过程。
100 万 Token 的统治力,企业级应用一把过
除了跑分,Opus 4.8 在复杂知识工作中的表现堪称怪兽。
它依然保持了 100 万 Token 的超大上下文窗口,这意味着你可以把一整本书的手稿、几周的会议记录,甚至一个完整的企业代码库一口气塞给它。

最让商业咨询圈震惊的是,在企业级 PPT 生成测试中,Opus 4.8 在 Zero-shot 的情况下,产出了一份结构清晰、设计合理、叙事逻辑堪称完美的 PPT。这是过去所有模型都无法做到的。
知名云存储服务商 Box,也在第一时间将 Opus 4.8 接入了其 Box AI Agent 并在真实企业数据上进行了测试,结果呈现出碾压态势。


· 报告起草:在工业品报告任务中,4.8 得分 87%(对比 4.7 的 77%);消费品发布评估任务中,得分高达 90%。
· 法律审查:Opus 4.8 能够极其精准地抓取合规标准,找出潜在的合同漏洞,并在多次独立测试中保持近乎完美的稳定性。
· 财务数据分析:在复杂的银团贷款与双边贷款结构对比中,从繁杂的源文档中提取准确财务指标的能力,比上一代提升了近 8 个百分点。


沃顿商学院教授 Ethan Mollick 的实测更是令人拍案叫绝。
他把几年前数百份去匿名化的研究文件扔进 Claude Code 中的 Opus 4.8。
结果,Opus 4.8 自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验,最后直接用 LaTeX 格式排版输出了一篇高度专业的小型学术论文!

有趣的是,Mollick 教授用 GPT-5.5 Pro 作为这篇论文的「审稿人」,GPT-5.5 挑出了一个幻觉错误和几个小问题,随后 Opus 4.8 立刻虚心接受,完美修正。

或许这就是为什么 Every 的 CEO Dan Shipper 激动地将 Opus 4.8 称为自己的「心头好」。
一个不可思议的软件工程师,同时又是一个拥有深度和同理心的近乎人类的作家,二者完美相融。

沃顿商学院教授实测的一个 Opus 4.8 惊艳案例
被群嘲的桌面端与「高智商税」
如此强大的模型,为何没有在全网形成绝对的碾压之势?
因为 Opus 4.8 身上背负着两个沉重的枷锁。
「大力出奇迹」的代价,是被智商分级绑架
评测机构很快发现了一个尴尬的事实:Opus 4.8 的「神级表现」,可以说是病态地依赖于你给它设定的推理强度(Effort Level)。
在/effort 的设定中,只有当档位拉到「Extra-High」时,Opus 4.8 才是那个得分 63 的资深工程师;一旦降级到「High」,它的编码得分会瞬间暴跌至 42,秒变平庸码农。
在写作上也是如此。High 档位下的 Opus 4.8 文笔优雅、逻辑严密;但一旦切到 Medium,它就会瞬间原形毕露,暴露出 AI 最糟糕的套路化写作恶习。

网友 Haider 尖锐地指出了这背后的技术退步:
我注意到了一个现象,4.8 在低强度下消耗的 Token,几乎和 4.6 在高强度下一样多。
GPT-5.5 倾向于用更少的 Token 拿到更高的分数;而 4.8 似乎走向了反面,它在用海量的 Token 堆砌智能。

这就导致了 Opus 系列一直被诟病的硬伤——Rate Limits。
由于高强度模式极度消耗资源,大量订阅了$200/月 Max 套餐的高端用户反馈,在运行复杂 Agent 任务时,常常几个小时就会撞上额度墙。

网友 BridgeMind 直言,自己为了测试连续烧穿了两个 200 美元的账号。

显然,相较于 OpenAI 庞大算力支撑下的宽容生态,Anthropic 显得过于抠门了。
混乱的 UI 设计
如果说模型是引擎,那么客户端应用就是底盘。而 Claude 的底盘,正在严重拖累这台跑车。
多位深度评测者指出,Claude 桌面端的设计简直是一场灾难。
Chat、Code、Cowork 三个独立标签页的分割,被指责为「混乱不堪」。

这种割裂的 UI 设计,被戏称是「带着时间推移的伤疤和 Anthropic 内部组织架构图的缩影」。(太亮了)
相比之下,OpenAI 的 Codex 桌面端应用被公认为是「干净、快速,让人感觉这就是未来」。
Opus 4.8 的硬核实力确实让很多人想回归 Claude,但糟糕的软件交互体验,最终还是让很多人把 GPT-5.5+Codex 作为日常主力,只在处理复杂任务时,才会捏着鼻子切回 Claude。

极其糟糕的「笼子」
大牛工程师 Anthony Koeger 是这样评价的:最近流行的这句话实在太对了,「一个模型的好坏,取决于套在它外面的那层壳(A model is only as good as its harness)。」

而 Opus 这次有些拉跨。

是关于「诚实」的营销,还是「跑分陷阱」下的战略失误?
伴随着 Opus 4.8 的发布,全网也爆发了一场关于大模型「跑分意义的空前激辩。
这场争论的导火索,就是一张 Anthropic 自己制作的官方发布图。
眼尖的网友 Aakash Gupta 发现了一个极不寻常的细节——
在 Anthropic 发布的各模型能力对比图中,在 TerminalCoding 这一项上,GPT-5.5 的成绩是 78.2%,而 Opus 4.8 只有 74.6%。

正常情况下,任何一家大厂的公关部,都会把输掉的测试项悄悄从 PPT 上抹去。
但 Anthropic 没有,他们不仅把失败留在了图表上,甚至还主动把 GPT-5.5 那代表胜利的 78.2% 做了加粗处理。
Aakash 对此大加赞赏,认为这显示出 Opus4.8 的核心卖点——诚实。

在大型 Agent 任务中,模型最昂贵、最致命的失败模式,就是「过度自信」。
而 Opus 4.8 最大的隐性升级,就是它更愿意承认自己不确定。官方数据显示,4.8 在代码中留下缺陷却不声张的概率,比 4.7 降低了惊人的 4 倍。
这次,Anthropic 卖的不是跑分,而是诚实。


在 Vending Bench 测试中,Claude Opus 4.8 的表现也远逊于 Opus 4.7 和 GPT 5.5
然而,业界大佬们并不买账。
Ruby on Rails 创始人和 Redis 之父,这两位在开发者社区拥有极高话语权的大神,直接对 Anthropic 开炮。
DHH 坦言,自从用了 GPT-5.5 之后,他经历了无数次震撼时刻,这是他在 Claude 阵营很久没有体会到的了。
antirez 更是尖锐地指出,Anthropic 这次把 GPT-5.5 放在同一张图里对比,犯了一个「重大的战略错误」。

过去的厂商比拼,往往是拿新一代模型和自己的上一代比。
但这次,Anthropic 非要和 GPT-5.5 比。问题在于,现在全网的「体感」是,GPT-5.5 的写代码能力非常、非常强悍。
当你 Anthropic 拿着一张图表,告诉大家你的 Opus4.8 跑分比 GPT-5.5 还要高。
但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的基准测试是在自娱自乐,彻底失去公信力。

网友 aditya 的吐槽更是直击灵魂:
用了快一个小时的 Opus 4.8,它根本不值得炒作。
几个很普通的工程任务,它全搞砸了。

在前端领域,网友也感到失落:「用了几个小时 4.8,感觉还不如 4.7 顺手。」

这一现象印证了 AI 大 V Chubby 的观察:Anthropic 现在仿佛在拼命追赶 OpenAI,而不是以前那样在引领整个行业了。

面对即将到来的 GPT-5.6,Anthropic 的王座显得摇摇欲坠。


有人做了一个速查表,结论是 GPT 5.5 和 Opus 4.8 的胜负取决于推理能力和获得第一个 token 的时间


6 周的赶工,Anthropic 这次急了
为什么 Opus 4.8 会呈现出如此复杂、矛盾的评价?
一个不容忽视的数据是:Opus 4.8 距离上一代 4.7 的发布,仅仅隔了 6 个星期。
这是 Anthropic 历史上最快的一次大版本迭代(此前每个 Opus 版本的间隔至少在 10 周以上)。
资深观察家 BridgeMind 一针见血地指出了真相:「这完全是一次仓促的发布,因为 GPT-5.5 正在疯狂蚕食市场份额。」

那么,真正的杀招在哪里?
据多方消息证实,Anthropic 真正的下一代旗舰模型,代号为 Mythos,几周内就会面世。
「Opus 4.8 只是一个过渡的创可贴,它修补了 4.7 的一些毛病,去几个 Agent 榜单上刷了存在感。」业内人士指出,「如果你在期待真正的智能质变,请屏息等待 Mythos。」
网友 Machina 的一段话,或许是对 Opus 4.8 发布最贴切的解读。
我们已经跨过了那条线——现在的旗舰模型,已经超出了绝大多数普通人分辨其优劣的能力上限。所以,现在世界上只剩下唯一一个真实的 Benchmark,那就是你自己的工作流。
如果连你在自己最烂熟于心的工作上都感觉不出差异,那么这些跑分对你来说,就没有任何意义。」

Opus 4.8 到底是神作,还是一次仓促的公关手段?
调出你最难啃的那个项目,让实测给你答案吧。
参考资料:
https://every.to/vibe-check/opus-4-8-vibecheck
https://x.com/bridgemindai/status/2060107380159852900
https://x.com/danshipper/status/2060043738752422304?s=20
编辑:Aeneas 大卫
