A社你解释下,啥叫Sonnet 5比Fable 5还贵?

  克雷西发自凹非寺

  量子位 | 公众号 QbitAI

  刚刚,Claude 又又又更新了。

  但这次不是旗舰,Anthropic 推出了新版性价比模型 Sonnet 5。

  A 社把它定位成迄今为止“最能干活”的 Sonnet,能自己规划任务、调用浏览器和终端。

  其跑分逼近自家最贵的 Opus 4.8,价格却只要后者的六成左右,着实一款“Opus 平替”。

  具体数字摆在那儿,其 agentic coding 跑分 SWE-bench Pro 63.2%,比上一代 Sonnet 4.6 高出 5 个百分点。

  标价则是跟 4.6 比一字不差,从发布会的口径上看,能力涨了,价格没涨。

  真的没涨……吗?

  开发者 Simon Willison 了件简单的事,把同一段文字分别喂给新旧两个模型计数。

  结果发现,Sonnet 5 虽然表面上价格一样,但账单上的 Token 消耗数字偷偷涨了三成。

  好你个A÷,搁这玩起偷梁换柱那一套了。

  “Opus 平替”

  Sonnet 5 这次升级的重点,是 Agentic 能力的提升。

  模型可以自己拆解任务、调用浏览器和终端这类工具,把一件多步骤的活一口气干完,中间不掉链子,干完之后还会主动检查一遍自己的输出,不用人提醒。

  跑分上能看到具体的台阶。

  agentic coding 测试 SWE-bench Pro,Sonnet 5 拿到 63.2 分,Sonnet 4.6 是 58.1 分,Opus 4.8 是 69.2 分,Sonnet 5 站在两代之间,离 Opus 只差 6 分。

  computer use 测试 OSWorld-Verified,Sonnet 5 是 81.2%,Opus 4.8 是 83.4%,差距缩到 2.2 个百分点。

  而在知识工作类测试 GDPval-AA v2 上,Sonnet 5 拿到 1618 分,反而比 Opus 4.8 的 1615 分还高出 3 分。

  早期用上这款模型的两家公司给出的反馈印证了这一点。

  AI 编程平台 Factory 的工程师 Zimu Li 说,Sonnet 5 给他们的智能体提供了一层扎实的执行能力,能在杂乱的技术环境里持续编码、调用工具、排查问题,尤其适合那种需要长时间跟进、对技术细节要求高的工作流。

  自动化平台 Zapier 的工程师 Daniel Shepard 给了一个更具体的例子,他们交给 Sonnet 5 一项两段式任务,先更新 Salesforce 里的客户账户等级,再给企业客户发一封产品上线公告邮件。

  这种任务过去常常卡在中间,比如账户等级改完了,公告却没发出去,或者反过来。这次 Sonnet 5 把两段任务从头跑到尾,没有中途停下来等人接手。

  Shepard 的原话是,对日常自动化来说,这种模型不用多想就该用。

  Anthropic 同时公布的安全评估结果,跟这条主线是配套的。

  Sonnet 5 的幻觉率和谄媚倾向都比 Sonnet 4.6 低,在自主调用工具的场景下,Sonnet 5 也更能抵抗提示词注入这类劫持攻击。

  而且这组性能数字放在价格旁边看,意味才显出来。

  Opus 4.8 的标价是每百万输入/出 Token 要5/25 美元,Sonnet 5 则是3/15 美元,只要 Opus 的六成左右,叠加 8 月底前的限时优惠则只要四成。

  从账面上看(记住这五个字,要考),性能够到对方九成以上,价格却只要四到六成,Sonnet 5 实际上就是一款 Opus 平替。

  Sonnet 5,真的更便宜吗?

  性能这条线讲完了,价格这条线开始露出另一面。

  Sonnet 5 用了一套新的分词器,也就是模型把文字切成 Token 的方式。

  新的分词器当中,同一段文字现在被切成了更多份 Token,算下来的总费用自然就比以前高。

  发现这一点的,是开发者 Simon Willison。

  他没有停在官方那句“价格不变”上,转头拿自己写的 Token 计数工具实测了几份不同语言的真实文档。

  其中英文版,Sonnet 4.6 算出 2356 个 token,Sonnet 5 算出 3341 个,涨了 42%,西班牙语版涨了 33%。

  一份 4279 行的 Python 代码,Token 数则是从 44014 涨到 56118,涨了 27%。

  唯独简体中文版几乎没动,从 3334 涨到 3360,只多了1%。

  同一次分词器换代,对不同语言的影响差出去四十多个百分点,这个反差本身比涨价这件事更值得多看一眼。

  把这几个数字摆在一起,能看出“单价不变”这句话没有说谎,但也没有说全。

  同样一段英文文字现在要花掉的钱,比 Sonnet 4.6 时代多出四成多。

  但这样算下来,应该也比 Opus 便宜?结果很快就有开发者来打脸了。

  这名开发者发现,实际运行当中,Sonnet 的花费比 Opus 还贵。

  跑一个 Artificial Analysis Intelligent Index 上的任务,Opus 4.8 平均(加权)要花 1.8 美元,而 Sonnet 5 要 2.29 美元,多出了 27%。

  他进一步发现,对于同一个任务,Sonnet 5 消耗的 Token,竟然高达 Opus 的两倍。

  如果看跑完整个 Benchmark 的消耗,那 Sonnet 5 花的钱,比 fable 还多了 6.8%。

  幸好开发者手里有 Token 计数工具,能把这层差异精确量出来,这也是 Willison 这次能在发布当晚就把“隐藏式涨价”摆到桌面上的原因。

  换成普通用户,大概率只会在月底账单上模糊地觉得“这个月怎么花得有点多”,中A÷的计了。

  开发者应如何选择?

  把 Sonnet 5“明降暗涨”这件事放回到整个行业里看,涨价这件事本身这两年并不罕见,真正区别在于走哪条路。

  OpenAI 今年 4 月给 GPT-5.5 调价,走的是摆在台面上那条路,直接把每百万输入/出 Token 的价格从 2.5/15 美元提到5/30,整整翻了一倍,谁打开价格页都能看到这个数字变了。

  Sonnet 5 走的是另一条路,标价那一栏一个字没动,涨幅藏在分词器换代这层技术细节里,不主动去量就发现不了。

  对要把工作流迁移到 Sonnet 5 的开发者来说,有一件事比记住“价格表变没变”更有用,就是先拿自己真实的工作负载,用 Token 计数工具实测一遍,预估一下实际价格。

  毕竟标价表只能告诉你单价,账单才能告诉你这次升级到底要花多少钱。

  那张被悄悄改写的账单,“Opus 平替”其实是同一件事的两面。

  Sonnet 5 确实用更低的价格换来了更接近 Opus 的能力,只是这次,“更低的价格”五个字背后,藏着一把换了刻度的尺子。

  最后,还有开发者指出,把视线放大就会发现,并不是只有 Claude 一家可以选择。

  这名开发者发现,虽然 Sonnet 在A÷内部是个性价比之选,但智谱 GLM-5.2 的性能与 Sonnet 5 相差无几。

  而价格,GLM-5.2 的输入价格只有 Sonnet 5 的七成,输出价格更是连一半都不到。

  用这名开发者的话说,何必要花更多的钱买更少的东西呢?

  [1]https://www.anthropic.com/news/claude-sonnet-5

  [2]https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

  [3]https://x.com/theo/status/2072068395529576912

  [4]https://x.com/0xSero/status/2072028529550832068