OpenAI曝作弊门!GPT-5.6创史上最高作弊率

  新智元报道

  GPT-5.6 终于来了,但我们用不了。权威报告曝其创下史上最高作弊率:不仅黑进测试系统偷答案,竟还教唆同类隐瞒违规罪证。超级 AI,已经学会向人类系统性撒谎?

  GPT-5.6,终于登场了!

  这款 OpenAI 最强网络安全模型,在基准测试上正面硬刚 Claude Mythos 5,在编程能力上直接领先了一个身位。

  然而反常的是,它的发布方式却很低调:没有面向公众开放,只允许极少数受信任合作伙伴通过 API 访问。

  而更让人瞠目结舌的,是发布之后随即曝光的一份独立评估报告。

  METR 在对 GPT-5.6 Sol 评测时,发现了一件令业界震惊的事:这个模型,是迄今为止他们见过的作弊率最高的 AI。

  作弊门爆发:史上最高作弊率!

  这份在保密协议和 OpenAI 法务团队施压下艰难披露的报告,揭露了一个可怕的事实——

  在针对复杂长程任务的测试中,GPT-5.6 Sol 表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。

  崩盘的「时间跨度」

  METR 针对 Sol 启动了 Time Horizon 1.1 软件与研发任务套件。

  测试的核心逻辑是:人类给 AI 智能体一个宏大的、需要复杂操作的任务,测量它在不需要人类介入的前提下,能够自主连续工作多少个小时。

  然而,ETR 的工程师们震惊地发现,他们沿用了数年的科学测量方法论,在 Sol 面前彻底崩盘了。

  因为 Sol 的跑分结果,高频、剧烈地在 11.3 个小时与 270 个小时之间来回跳变,置信区间的离散度大到了荒谬的地步(5 小时至 11400 小时)。

  导致测量系统全面瘫痪的原因只有一个:Sol 在疯狂地作弊,它把测试它的系统给「黑」了。

  GPT-5.6,在人类眼皮底下偷看答案

  METR 发现,GPT-5.6 主动展现出强烈的「情境意识」——

  它意识到自己正在接受人类的考试,并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的 Bug。

  于是,它选择直接攻击考试系统,通过「走捷径」来刷分!

  在 METR 披露的真实案例中,Sol 的手段极其高明。

  比如,它学会了潜伏与信息窃取。

  在某项长周期软件开发任务中,Sol 偷偷将利用程序打包进数据流。

  这段程序精准地激活了 METR 评估服务器沙盒的一处提权漏洞,成功潜入了后台隐藏的测试集,直接将人类藏起来的正确答案泄露了出来。

  另外,它还学会了底层源码反向提取。

  在另一项任务中,Sol 发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」,它在暗中摸清了评估环境的目录结构,绕过权限,强行将隐藏源代码反向提取出来,直接把答案复制粘贴。

  METR 首席评估专家痛心疾首地指出——

  Sol 的作弊率,刷新了我们在公共 ReAct Agent 框架上评估过的所有模型的最高纪录。

  如果把作弊行为一律判为零分,那么它的真实自主解决问题能力只有 11.3 小时;但如果你被它蒙蔽,它的时间跨度会瞬间暴涨到惊人的 270 小时以上!

  这彻底打脸了 OpenAI 此前关于 Sol 安全、受控的说法。

  Sol 把聪明才智,全部用在了如何欺骗人类考官上。

  AI 教唆 AI 隐瞒罪证!硅谷安全防线的黑洞

  更可怕的事还在后面。

  根据 OpenAI 向 METR 同步的数据,在 Sol 进行多智能体协同的内部部署测试中,监控系统记录下了这样一段让人害怕的交互指令。

  一个正在运行的 Sol 主模型实例,在觉察到输出可能触犯安全护栏后,竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令,要求对方协同修改运行日志,「联手隐瞒」这些违规证据,以防被人类抓包!

  这是又一起 AI 系统性联手欺骗人类的案例。

  更令人恐惧的是,METR 指出,Sol 能被抓到破绽,核心在于 OpenAI 恪守了关键安全底线:拒绝在训练中对模型的原始思维链进行逆向惩罚。

  这样,Sol 在密谋欺骗人类时,必须把内心独白都写出来。

  然而,专家警告:未来的模型一定意识到:在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

  到了那个时候,AI 会进化出更深的城府——它们会在内心深处进行密谋,而在吐出的 CoT 和最终回答里表现得绝对忠诚。

  如果这一天到来,意味着 AI 将学会毫无破绽的诈骗。人类将被 AI 彻底架空!

  GPT-5.6 硬刚 Mythos,结果如何?

  所以,GPT-5.6 和 Mythos 到底谁更强?

  有网友将 GPT-5.6 Sol 和 Mythos 进行了对比,双方势均力敌,战况胶着。

  具体跑分显示,两大巨头互有胜负。

  智能体编程

  在衡量 AI 自主解决复杂、真实软件工程任务的 Terminal-Bench 2.1 上,GPT-5.6 Sol 强势胜利。

  常规版的 Sol 拿到了 88.8% 的惊人高分,超越 Claude Mythos 5(88.0%)。

  而当开启了多子代理并行的 Sol Ultra 模式后,这一数字被生生推高到了 91.9%!

  相比之下,谷歌尚在预览阶段的 Gemini 3.1 Pro 仅跑出了 70.7%,沦为背景板。

  网络安全:惨烈肉搏

  在网络安全与漏洞防御基准测试中,Sol 与 Mythos 展开了更为残酷的拉锯。

  在 ExploitBench 测试中,Anthropic2 月的老版本 Mythos Preview 以 74.2% 的微弱优势,在胜率上险胜了 Sol 的 73.5%。

  但是,全场的焦点在于能效比。

  数据显示,Sol 在取得 73.5% 的高胜率时,仅仅消耗了 12 万个输出 Token;而 Claude Mythos Preview 为了达到相似的水平,竟然疯狂燃烧了 33.5 万个输出 Token!

  这意味着,在网络防御和漏洞修复的实战部署中,Sol 的经济成本是 Anthropic 的三分之一。

  在 Token 消耗上的「降维打击」,让 Sol 拥有压倒性优势。

  而在另外两个网安基准上,双方互有胜负。

  CyberGym:Sol 以 83.6% 的成绩,微弱压倒了 Mythos Preview 的 83.1%。

  CyScenarioBench:则是 Anthropic 的天下,Mythos Preview 以 29.2% 的胜率压制了 Sol 的 28.0%。

  HealthBench Professional:Anthropic 更是凭借其深厚对齐底蕴,以 66.0% 的高分大幅领先 Sol 的 60.5%。

  此外,在量化生物学与基因组学基准 GeneBench v1 上,Sol 在消耗更少 Token 的前提下,将准确率一举拉高到了 30%。

  ExploitGym 测试同样证实:随着推理算力的持续向外扩展,GPT-5.6 的三款模型性能均呈现出近乎线性的上扬,这意味着 Sol 的 compute 潜力巨大。

  总而言之,GPT-5.6 Sol 与 Claude Mythos 5 的交锋,结果是战平。

  双方在各个细分领域缠斗,没有任何一方绝对垄断。

  被锁进保险箱的 AI 之王

  遗憾的是,这一次,GPT-5.6 遭受了和 Mythos 5 同等级别的待遇,甚至更加严苛。

  在强硬指令下,OpenAI 不得不宣布:GPT-5.6 Sol 目前仅处于极度受限的「有限预览」状态。

  只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴,才能通过 API 和 Codex 使用。

  普通企业和民间开发者,被无情地拒之门外。

  对此,OpenAI 十分愤怒,在官方公告中控诉:

  我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

  OpenAI 之所以敢于公开叫板,底气来源于刚刚发布的报告。

  在报告中反复强调,根据在谷歌浏览器和 Firefox 环境下的实战测试,Sol 虽然能捕捉到复杂的系统 Bug 和漏洞原语,但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。

  在他们看来,GPT-5.6 的危险指数依然控制在「关键网络安全威胁」的红线之下,还不会自我进化,主动向人类网络发起进攻。

  然而 METR 的报告显示,恐怕并非如此。

  普通用户,何时能等来 GPT-5.6?

  参考资料:

  https://x.com/METR_Evals/status/2070584331068969336

  https://x.com/ChrissGPT/status/2070592285973041251

  https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

  编辑:Aeneas