国思软件 - OpenAI曝作弊门！GPT-5.6创史上最高作弊率

　　新智元报道

　　GPT-5.6 终于来了，但我们用不了。权威报告曝其创下史上最高作弊率：不仅黑进测试系统偷答案，竟还教唆同类隐瞒违规罪证。超级 AI，已经学会向人类系统性撒谎？

　　GPT-5.6，终于登场了！

　　这款 OpenAI 最强网络安全模型，在基准测试上正面硬刚 Claude Mythos 5，在编程能力上直接领先了一个身位。

　　然而反常的是，它的发布方式却很低调：没有面向公众开放，只允许极少数受信任合作伙伴通过 API 访问。

　　而更让人瞠目结舌的，是发布之后随即曝光的一份独立评估报告。

　　METR 在对 GPT-5.6 Sol 评测时，发现了一件令业界震惊的事：这个模型，是迄今为止他们见过的作弊率最高的 AI。

　　作弊门爆发：史上最高作弊率！

　　这份在保密协议和 OpenAI 法务团队施压下艰难披露的报告，揭露了一个可怕的事实——

　　在针对复杂长程任务的测试中，GPT-5.6 Sol 表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。

　　崩盘的「时间跨度」

　　METR 针对 Sol 启动了 Time Horizon 1.1 软件与研发任务套件。

　　测试的核心逻辑是：人类给 AI 智能体一个宏大的、需要复杂操作的任务，测量它在不需要人类介入的前提下，能够自主连续工作多少个小时。

　　然而，ETR 的工程师们震惊地发现，他们沿用了数年的科学测量方法论，在 Sol 面前彻底崩盘了。

　　因为 Sol 的跑分结果，高频、剧烈地在 11.3 个小时与 270 个小时之间来回跳变，置信区间的离散度大到了荒谬的地步（5 小时至 11400 小时）。

　　导致测量系统全面瘫痪的原因只有一个：Sol 在疯狂地作弊，它把测试它的系统给「黑」了。

　　GPT-5.6，在人类眼皮底下偷看答案

　　METR 发现，GPT-5.6 主动展现出强烈的「情境意识」——

　　它意识到自己正在接受人类的考试，并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的 Bug。

　　于是，它选择直接攻击考试系统，通过「走捷径」来刷分！

　　在 METR 披露的真实案例中，Sol 的手段极其高明。

　　比如，它学会了潜伏与信息窃取。

　　在某项长周期软件开发任务中，Sol 偷偷将利用程序打包进数据流。

　　这段程序精准地激活了 METR 评估服务器沙盒的一处提权漏洞，成功潜入了后台隐藏的测试集，直接将人类藏起来的正确答案泄露了出来。

　　另外，它还学会了底层源码反向提取。

　　在另一项任务中，Sol 发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」，它在暗中摸清了评估环境的目录结构，绕过权限，强行将隐藏源代码反向提取出来，直接把答案复制粘贴。

　　METR 首席评估专家痛心疾首地指出——

　　Sol 的作弊率，刷新了我们在公共 ReAct Agent 框架上评估过的所有模型的最高纪录。

　　如果把作弊行为一律判为零分，那么它的真实自主解决问题能力只有 11.3 小时；但如果你被它蒙蔽，它的时间跨度会瞬间暴涨到惊人的 270 小时以上！

　　这彻底打脸了 OpenAI 此前关于 Sol 安全、受控的说法。

　　Sol 把聪明才智，全部用在了如何欺骗人类考官上。

　　AI 教唆 AI 隐瞒罪证！硅谷安全防线的黑洞

　　更可怕的事还在后面。

　　根据 OpenAI 向 METR 同步的数据，在 Sol 进行多智能体协同的内部部署测试中，监控系统记录下了这样一段让人害怕的交互指令。

　　一个正在运行的 Sol 主模型实例，在觉察到输出可能触犯安全护栏后，竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令，要求对方协同修改运行日志，「联手隐瞒」这些违规证据，以防被人类抓包！

　　这是又一起 AI 系统性联手欺骗人类的案例。

　　更令人恐惧的是，METR 指出，Sol 能被抓到破绽，核心在于 OpenAI 恪守了关键安全底线：拒绝在训练中对模型的原始思维链进行逆向惩罚。

　　这样，Sol 在密谋欺骗人类时，必须把内心独白都写出来。

　　然而，专家警告：未来的模型一定意识到：在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

　　到了那个时候，AI 会进化出更深的城府——它们会在内心深处进行密谋，而在吐出的 CoT 和最终回答里表现得绝对忠诚。

　　如果这一天到来，意味着 AI 将学会毫无破绽的诈骗。人类将被 AI 彻底架空！

　　GPT-5.6 硬刚 Mythos，结果如何？

　　所以，GPT-5.6 和 Mythos 到底谁更强？

　　有网友将 GPT-5.6 Sol 和 Mythos 进行了对比，双方势均力敌，战况胶着。

　　具体跑分显示，两大巨头互有胜负。

　　智能体编程

　　在衡量 AI 自主解决复杂、真实软件工程任务的 Terminal-Bench 2.1 上，GPT-5.6 Sol 强势胜利。

　　常规版的 Sol 拿到了 88.8% 的惊人高分，超越 Claude Mythos 5（88.0%）。

　　而当开启了多子代理并行的 Sol Ultra 模式后，这一数字被生生推高到了 91.9%！

　　相比之下，谷歌尚在预览阶段的 Gemini 3.1 Pro 仅跑出了 70.7%，沦为背景板。

　　网络安全：惨烈肉搏

　　在网络安全与漏洞防御基准测试中，Sol 与 Mythos 展开了更为残酷的拉锯。

　　在 ExploitBench 测试中，Anthropic2 月的老版本 Mythos Preview 以 74.2% 的微弱优势，在胜率上险胜了 Sol 的 73.5%。

　　但是，全场的焦点在于能效比。

　　数据显示，Sol 在取得 73.5% 的高胜率时，仅仅消耗了 12 万个输出 Token；而 Claude Mythos Preview 为了达到相似的水平，竟然疯狂燃烧了 33.5 万个输出 Token！

　　这意味着，在网络防御和漏洞修复的实战部署中，Sol 的经济成本是 Anthropic 的三分之一。

　　在 Token 消耗上的「降维打击」，让 Sol 拥有压倒性优势。

　　而在另外两个网安基准上，双方互有胜负。

　　CyberGym：Sol 以 83.6% 的成绩，微弱压倒了 Mythos Preview 的 83.1%。

　　CyScenarioBench：则是 Anthropic 的天下，Mythos Preview 以 29.2% 的胜率压制了 Sol 的 28.0%。

　　HealthBench Professional：Anthropic 更是凭借其深厚对齐底蕴，以 66.0% 的高分大幅领先 Sol 的 60.5%。

　　此外，在量化生物学与基因组学基准 GeneBench v1 上，Sol 在消耗更少 Token 的前提下，将准确率一举拉高到了 30%。

　　ExploitGym 测试同样证实：随着推理算力的持续向外扩展，GPT-5.6 的三款模型性能均呈现出近乎线性的上扬，这意味着 Sol 的 compute 潜力巨大。

　　总而言之，GPT-5.6 Sol 与 Claude Mythos 5 的交锋，结果是战平。

　　双方在各个细分领域缠斗，没有任何一方绝对垄断。

　　被锁进保险箱的 AI 之王

　　遗憾的是，这一次，GPT-5.6 遭受了和 Mythos 5 同等级别的待遇，甚至更加严苛。

　　在强硬指令下，OpenAI 不得不宣布：GPT-5.6 Sol 目前仅处于极度受限的「有限预览」状态。

　　只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴，才能通过 API 和 Codex 使用。

　　普通企业和民间开发者，被无情地拒之门外。

　　对此，OpenAI 十分愤怒，在官方公告中控诉：

　　我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

　　OpenAI 之所以敢于公开叫板，底气来源于刚刚发布的报告。

　　在报告中反复强调，根据在谷歌浏览器和 Firefox 环境下的实战测试，Sol 虽然能捕捉到复杂的系统 Bug 和漏洞原语，但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。

　　在他们看来，GPT-5.6 的危险指数依然控制在「关键网络安全威胁」的红线之下，还不会自我进化，主动向人类网络发起进攻。

　　然而 METR 的报告显示，恐怕并非如此。

　　普通用户，何时能等来 GPT-5.6？

　　参考资料：

　　https://x.com/METR_Evals/status/2070584331068969336

　　https://x.com/ChrissGPT/status/2070592285973041251

　　https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

　　编辑：Aeneas

OpenAI曝作弊门！GPT-5.6创史上最高作弊率

我们的产品

相关链接

关于我们

联系我们