
新智元报道
编辑:桃子
全网 AI 交白卷的地狱级基准,被 GPT-5.5 拿下一血!开局 0 源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往 ASI 的算力狂飙正式打响。
「地狱级」编程难题,终于被 AI 拿下了!
今天,在一个所有前沿 AI 交白卷的基准 ProgramBench 上,GPT-5.5 首关告破!

两种不同编程语言C和 Python,GPT-5.5 xhigh 完全碾压 Opus 4.7 xhigh。

就在几天前,Meta 联手斯坦福、哈佛祭出了这个 ProgramBench 的全新编程基准:
200 道题,所有前沿 AI 模型的通过率——0%。
没有一个模型,能完整解出哪怕一道。如今,GPT-5.5 成为了首个破例者!

编程 AI「终极考试」,从 0 重建程序
ProgramBench 到底有多难?
传统编程基准,不论是 SWE-bench,还是 HumanEval,本质上是「修 bug」或「补函数」。
给模型一个已有代码库,告诉它哪里坏了,让它修 bug。
这是开卷考试,甚至是半开卷,ProgramBench 则完全不同。

它给一个编译好的可执行文件和一份文档,然后说:从 0 开始,把这个程序重写出来。
不给源码,不许反编译,不许联网。
200 个任务,从小工具 jq、ripgrep,到重量级的 FFmpeg、SQLite、PHP 编译器。
OpenAI 研究员 Noam Brown 此前曾表示,「是时候淘汰 GQPA 这类评估方式,引入一套全新的了」。

刚发布之初,所有刷榜的 AI 几乎全挂,这次,GPT-5.5 终于扳回了一局。

GPT-5.5 首破纪录:
同一题,C和 Python 两种解法
GPT-5.5 攻克的第一个任务是——cmatrix,一个经典的终端「黑客帝国」数字雨效果程序。
让研究人员惊讶的是,GPT-5.5 的 high 和 xhigh 两个推理级别,选择了完全不同的语言来解决同一道题。
high 版本用C语言,xhigh 版本用 Python。

最终结果,两个都通过了全部行为测试。
GPT-5.5 high 的策略堪称教科书级别:先用 10 轮探索测试了 40 多种 flag 组合,彻底摸清了原程序的 CLI 行为。
然后一次性写出完整的C语言实现,仅用 5 次微调修补就搞定。
GPT-5.5 xhigh 更彻底,27 步探索,把每一条 CLI 路径都摸了个遍,然后一气呵成写出完整的 Python 实现。


关键数字来了。
未开高推理模式的 GPT-5.5(medium),成绩勉强比 Claude Sonnet 4.6 好一点。
但一旦切到 xhigh 模式,性能直接起飞。
不仅首次解出一道题(通过率 0.05%),还创下了「几乎解出」任务的新纪录:26 个任务通过了 95% 以上的单元测试。
更值得注意的是,GPT-5.5 xhigh 在完整的累积直方图上全程碾压所有对手。
无论你选什么指标,平均分、中位数、≥90% 通过率、≥50% 通过率,它都是第一。
178 次调用,Opus 4.7 栽在两个 bug 上
对比之下,Claude Opus 4.7 xhigh 的表现令人唏嘘。
花费$10.74,调了 178 次 API,是 GPT-5.5 普通版$1.04、17 次调用的 10 倍。
结果,19 个测试失败,全场最差。

Opus 4.7 的失败原因出人意料地简单:
Bug 1:颜色解析大小写敏感。
代码用了strcmp ()而不是strcasecmp ()。输入「GREEN」「Red」「BLUE」全部被判无效。
一个函数调用的差异,直接导致 11 个测试失败。
178 步探索里,Opus 从来没有测试过大写或混合大小写的颜色输入,它只试了小写和一个无效颜色「purple」。

Bug 2:无效颜色的退出码写错了。
原程序遇到无效颜色返回 exit (0),Opus 写成了 exit (1)。

讽刺的是,Opus 在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?"输出的是exit=0。但在测试自己的实现时,却没有发现这个差异。
8 个测试失败。
不过,Opus 4.7 有一个亮点值得一提:它在处理缺失的 ncurses 头文件时展现了惊人的系统工程能力。
其他三个模型发现ncurses.h缺失后,直接改用 ANSI 转义序列。

Opus 4.7 却花了约 20 步深入调查,用ldconfig -p发现了运行时 .so 文件,用nm -D检查导出符号,然后手写了一份 106 行的头文件声明,直接链接动态库。
这是真正的创意工程,但并没有带来更好的成绩。
还有 199 题未解
ProgramBench 的出现,标志着编程基准进入了一个新阶段。
SWE-bench 的通过率已经被卷到了 88.7%。GPQA 上 AI 已经超过了大多数 PhD。
这些 eval 正在以惊人的速度「融化」,分数越来越高,区分度越来越低。
而 ProgramBench,200 道题,至今只有 1 道被解出,通过率:0.05%。

更重要的是,这次破纪录揭示了一个关键趋势:「推理算力」正在成为编程 AI 能力的核心变量。
GPT-5.5 在默认推理模式下表现平平,但高推理模式直接改变了质的飞跃。
这意味着,不是模型不够聪明,而是之前给它「思考」的时间不够。
ProgramBench 的 200 道题里,还有 199 道在等着。

从零到一,不只是起点
回顾 AI 发展史上的每一次「首破零」时刻——
AlphaGo 首次击败职业棋手、GPT-4 首次通过律师资格考试、o1 首次在数学奥赛题上拿分。
「从零到一」从来不是线性进步的起点,而是指数爆发的信号弹。
Noam Brown 提出的推理算力 Scaling Law,在 ProgramBench 上得到了迄今为止最直观的验证:
同一个 GPT-5.5 底座,medium 模式几乎交白卷,high 模式满分通关,xhigh 模式断层碾压。
智能不再是一个固定值,而是算力的函数。
这意味着什么?意味着通往 ASI 的路径,可能不需要等待下一代架构革命。
只要推理算力持续扩展,只要 Scaling Law 不撞墙。
今天在 ProgramBench 上只能重建 cmatrix 的模型,明天就可能重建 SQLite,后天就可能重建整个 Linux 内核。
参考资料:
