GPT-5.6凌晨炸场,强到能取代八成工作,但普通人用不了!Claude Mythos 5也放行了

  出品 | 网易智能

  作者 | 小小

  编辑 | 王凤枝

  6 月 27 日凌晨,OpenAI 发布了迄今为止最强的模型系列 GPT-5.6,三款模型分别叫 Sol、Terra 和 Luna。

  其中,旗舰模型 Sol 在命令行、漏洞研究、生物分析等多个基准测试上刷新纪录,效率比前代大幅提升,甚至只用三分之一的 token 输出量就与 Anthropic 的 Claude Mythos Preview 打成平手。

  有提前试用的知名博主说,这模型直接取代了他八成的工作任务,叫 GPT-6 也不过分。

  但这么强的模型,普通人现在却用不了。OpenAI 只把它开放给了大约 20 个经过政府审查的合作方,全面发布被推迟到未来几周。

  OpenAI CEO 山姆·奥特曼(Sam Altman)在社交媒体上无奈地表示:模型很强,但我们也没办法,这是美国政府的要求。

  OpenAI 官方博客说得更直白,他们认为这种政府接入流程不应成为长期默认做法,它让最好工具到不了需要的用户手里,但眼下采取这个短期步骤,是相信这能让模型最快到达更多人手中。

  这种分阶段的做法,既回应了特朗普总统 6 月 2 日签署的行政命令中关于模型安全评估的要求,也避免了像 Anthropic 那样在发布后被政府强制叫停的尴尬。

  同一天下午,另一家明星公司 Anthropic 等来了初步解禁令。

  美国政府解除了对 Claude Mythos 5 长达两周的出口管制,允许其向超过 100 家美国机构发布。商务部长霍华德·拉特尼克(Howard Lutnick)在给 Anthropic 的正式信函中写道,已确定采取了适当的保障措施。

  但 Mythos 的姊妹模型 Fable 5 仍被关着,解禁时间表不明。

  这两件事放在一起,信号再清楚不过:美国政府正在把前沿 AI 模型的发布权牢牢攥在自己手里,谁能第一时间拿到最强模型,谁得排队等着,是华盛顿说了算,不是硅谷。

  换句话说,OpenAI 这次走的是另一条更稳妥的路线,在全面开放前主动向政府预览发布计划和模型能力,并按要求启动有限预览。这不是看到 Anthropic 被罚之后的临时反应,而是提前布局。

  可以说,GPT-5.6 这次发布,在产品能力和发布节奏上都踩在了监管的节拍上。

  01 Sol 有多强?只用对手三分之一的力气就掰了手腕

  这次 GPT-5.6 系列一共分为三款模型,包括 Sol(太阳)、Terra(大地)和 Luna(月亮)。

  命名方式彻底换了,不再用过去那种 nano、mini 的后缀,而是用持久的能力层级来区分。Sol 是旗舰,Terra 是平衡款,Luna 主打快速和便宜。

  OpenAI 解释称,这给开发者和用户提供了一个关于智能、速度和成本的更清晰选择。

  据 VentureBeat 援引了解 OpenAI 内部运作的人士透露,新名字也有从宇宙和自然元素里寻找灵感的考虑,而且 Sol 刚好跟公司一项叫 Daybreak 的网络防御计划很搭。

  Sol 到底强在哪?

  最直观的进步体现在效率上。OpenAI 官方公布的数据显示:在 ExploitBench 基准测试上,GPT-5.6 Sol 只用大约三分之一的输出 token,就跟 Anthropic 的 Claude Mythos Preview 打成了平手。

  美国知名 AI 博主@swyx 在试用之后说,这是一句信息量巨大的描述。他解释,这说明 OpenAI 的后训练团队大幅推进了推理的帕累托前沿,而这是目前企业级智能体模型竞争里最重要的一项优势,团队没有透露具体怎么做到的,完全可以理解。

  在衡量命令行自动化能力的 TerminalBench 2.1 上,Sol 开了“超极模式”之后拿到了 91.91% 的分数,刷新了行业记录。不开超极模式也有 88.76%,超过了 GPT-5.5 的 83.4% 和 Claude Mythos 5 的 88%。中端的 Terra 拿了 82.5%,接近前代旗舰模型水平。

  在另一个评估专业工作流的 Agent's Last Exam 里,Sol 是唯一一个在代码模式下完成超过一半任务的模型,得分 50.9%。连最便宜的 Luna,在这个测试里也勉强超过了 GPT-5.5。

  @swyx 还分享了他的实际体验。

  他说自己已经测试 5.6 一段时间了,这不是一个所谓的网络版模型,而是新的顶尖工作模型,直接取代了他 80% 任务里的 Claude Opus。他甚至觉得,这次改进幅度远超从 5.4 到 5.5 的跳跃,而 5.5 本身就是自 4o 和 o1 以来 OpenAI 最成功的发布,团队在这个版本上全力以赴了,直接叫 GPT-6 也不过分。

  02 不只是会写代码生物和基因分析也更强了

  OpenAI 新模型的能力不局限在编程和网络安全上。

  在评估基因组学和定量生物学分析的 GeneBench v1 上,Sol 和 Terra 都比 GPT-5.5 的准确率更高,而且 Sol 用的输出 token 更少,效率提升很明显。

  OpenAI 在博客里说,GPT-5.6 Sol 是他们迄今为止在网络安防方面最有能力的模型,改变了长期安全任务中性能和效率的边界。

  不过有意思的是,能力越强,安全上的自我约束也越多。

  Sol 在针对 Chromium 和 Firefox 代码库的测试里,能够识别出漏洞和利用原语,但在测试条件下还无法自己拼出一套功能完整的全链利用程序。OpenAI 强调,这个模型更擅长帮助防御者发现和修复漏洞,而不是可靠地执行端到端攻击。定位很清楚,就是给做安全研究的人当高效助手。

  03 安全审查拖慢发布首批只给 20 家

  这次发布最让人意外的是发售方式。

  按照 OpenAI 原本的计划,GPT-5.6 应该直接开放访问。但特朗普总统 6 月 2 日签署的行政命令要求联邦机构制定新的 AI 模型能力基准和评估流程,截止日期是 7 月 2 日,整个框架还在搭。

  于是美国政府要求 OpenAI 先别全面铺开,只向一小批可信赖合作伙伴开放有限预览。

  OpenAI 照做了。他们在博客里说,已经在发布前向政府预览了计划和模型能力,应政府要求先向合作方开放,这些合作方的详细信息也共享给了政府。合作方大约 20 个,具体名单没有公布。全面公开发布被推到未来几周,具体时间要看跟政府的沟通进展。

  奥特曼在社交媒体上发帖解释了这种情况。他说好消息是 Sol 聪明、高效,是个重要的进步,价格跟 GPT-5.5 一样。坏消息是应美国政府要求,今天只能以有限预览形式推出,不是原本计划的开放访问。

  奥特曼认为,以这种方式推出模型是合理的,符合公司长期坚持的迭代部署策略,但这并不是他认为最优化的流程。他还说了一句意味深长的话:我相信政府与我们分享大部分目标,而且他们在这样一个非常困难的局面中总体上做得很好。

  OpenAI 官方博客的措辞则没有那么客气。他们明确写道,我们认为这种政府接入流程不应成为长期的默认做法,它使最佳工具无法触及其需要的用户、开发者、企业、网络防御者和全球合作伙伴。但紧接着又说,采取这一短期步骤,是因为我们相信这是在未来几周内实现更广泛可用性的最有力途径。

  在安全方面,OpenAI 这次花了大力气。

  官方透露,他们投入了超过 70 万个 A100 等效 GPU 小时,专门对 GPT-5.6 进行自动化红队测试。目标不是找出单个提示的变通方法,而是找出通用越狱方法,也就是能在不同上下文里反复起作用的系统性攻击向量。

  防护体系分了好几层。模型本身被训练去拒绝提供被禁止的网络帮助,包括有人试图掩饰意图或者越狱。还有实时的滥用筛查分类器,独立监控网络和生物方面的输出内容。

  对于 Sol 和 Terra 这两个能力更强的版本,OpenAI 还加了一层在推理过程中监控内部信号的激活分类器。一旦检测到风险模式,输出流可以暂停,由另一个更大的推理系统审查内容和上下文,判定违规的话答案在到达用户之前就会被拦下来。

  但这套严密的防护也有副作用。

  OpenAI 在系统卡里承认,因为合法的防御性工作跟攻击行为在代码原语上常常一样,分类器可能定期出现误报。

  数据显示,监控栈在生物安全评估上的整体召回率是 94.8%,网络安全上是 81.6%,说明它不是滴水不漏,既可能漏掉风险,也可能拦住合法工作。

  被持续标记的活动还可能触发跨历史对话的账户级自动审查。OpenAI 表示正在跟企业客户谈长期的安全合规控制方案,包括客户自己操作的安全覆盖和能保护企业数据不被人工审查看到的隐私检测机制。

  04 AI 圈炸了政府在挑选赢家吗?

  OpenAI 模型的新发布方式很快引发了争论。

  独立研究员约书亚·克拉托奇维尔(Joshua Kratochvil)公开表达了担忧。他认为将访问权限对公众设限、只授予企业和机构,开了一个危险的先例,这会延续社会目前已经在滋生的很多问题,听起来像赛博朋克式的反乌托邦,政府和企业掌控一切。

  他进一步批评说,这限制了小企业的机会,阻碍初创公司获取最佳工具,现有巨头从中获益最大,而有潜力的初创公司却被惩罚。他提议,以后或许可以设计一个表单,也允许小企业、美国公民和小型实验室申请访问权限。

  X 平台用户 KevinOffScript 说得更直接。他评论说,这实际上是政府在决定谁能获得最宝贵的资源,他不希望政府来挑选和决定赢家。他认为 AI 公司应该实施自己的“Know Your Customer”政策,只限美国公司,除此之外,政府别挡道。

  但也有人持相对平衡的看法。AI 博主 swyx 也觉得,为扩展红队测试设置一个强制预览期本身并不是个坏主意,真正让人不舒服的只是政府来挑选客户这个环节。

  ID 为 HaiyuWu1 的X用户则提出了另一种质疑。他说奇怪的是 OpenAI 有这么多方面可以宣传他们的新模型,却选择突出一个基准测试结果和一些花哨的名字,实用性距离在单一基准测试上表现良好还差得远。

  05 三款怎么选?价格差五倍,定位各不同

  三款模型的定价差异很清晰。

  Sol 每百万输入 token 5 美元,输出 30 美元,跟 GPT-5.5 持平。Terra 是 Sol 的一半,每百万输入 token 2.5 美元,输出 15 美元。Luna 最便宜,输入 1 美元,输出 6 美元。从 Sol 到 Luna,输出价格差了五倍。

  OpenAI 说,Terra 的性能跟 GPT-5.5 相当,但成本只有一半。Luna 定位最快最低成本,在多项测试中表现接近 GPT-5.5 的水平。换句话说,不追求最顶级能力的话,便宜的选择已经够用了。

  在成本控制上,OpenAI 还有个新动作。

  GPT-5.6 API 引入了更可预测的提示缓存机制。开发者可以设置显式缓存断点,系统保证至少 30 分钟的最小缓存生命周期。首次缓存写入时费用是标准未缓存输入费率的 1.25 倍,之后再读取就能享受 90% 的折扣。

  对于反复把大量上下文或代码库传回模型的系统,这提供了一个财务上的护栏。

  速度方面,OpenAI 计划今年 7 月在 Cerebras 硬件上推出 GPT-5.6 Sol,声称处理速度达到每秒 750 个 token,面向那些对延迟敏感又需要前沿推理能力的专业企业应用。

  结语,接下来会发生什么?

  GPT-5.6 发布当天,Anthropic 也等来了一份政府信函。

  商务部长拉特尼克正式通知 Anthropic,解除对 Mythos 5 长达两周的出口管制,但 Fable 5 仍在禁闭中。

  至此,美国政府的新角色彻底明朗了。商务部发言人本诺·卡斯(Benno Kass)表示,在短短两周内政府勤奋工作,确保美国在保障安全的同时保持全球 AI 领导者地位。拉特尼克在信中则说得更直白,他称这标志着一个新监管制度的开端,政府从此掌握了前沿 AI 模型发布的控制权。

  行业里对此早有微词。许多 AI 分析师批评白宫正在选择赢家和输家,并且让过去跟 Anthropic 的争执影响了决策。另一边,OpenAI 和政府在对 Anthropic 下禁令之前,就一直在讨论 GPT-5.6 的发布,奥特曼和拉特尼克在周三还专门碰过头。

  商务部下面有个叫 AI 标准与创新中心的部门,简称 CAISI,一直在审查 GPT-5.6。知情人士说,最近的行政命令让网络安全和国安官员在模型评估中发挥了更大作用,这让一直推动 CAISI 保持重要存在的公司感到担忧,OpenAI 就是其中之一。

  GPT-5.6 全面公开发布的时间还没定,OpenAI 的说法是未来几周。奥特曼发帖说,现在他们要和政府合作,尝试建立一个透明、可靠的早期访问流程,确保只要安全措施按预期运作就能广泛发布。他希望成为可靠、可信赖的合作伙伴,同时坚守造福全人类的使命。

  对普通用户来说,GPT-5.6 还用不了。对开发者和小企业来说,能不能拿到访问权限、什么时候拿到,都是未知数。而对整个行业来说,这次发布的意义可能超出了模型本身。

  这一切指向同一个事实:最先进的 AI 模型发布,已经从硅谷的董事会会议室搬到了华盛顿的谈判桌上,而且短期内看不到回头的迹象。