国思软件 - GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元

　　新智元报道

　　编辑：桃子

　　全网 AI 交白卷的地狱级基准，被 GPT-5.5 拿下一血！开局 0 源码盲写程序，拉满推理算力直接满血通关。传统代码测试已废，通往 ASI 的算力狂飙正式打响。

　　「地狱级」编程难题，终于被 AI 拿下了！

　　今天，在一个所有前沿 AI 交白卷的基准 ProgramBench 上，GPT-5.5 首关告破！

　　两种不同编程语言C和 Python，GPT-5.5 xhigh 完全碾压 Opus 4.7 xhigh。

　　就在几天前，Meta 联手斯坦福、哈佛祭出了这个 ProgramBench 的全新编程基准：

　　200 道题，所有前沿 AI 模型的通过率——0%。

　　没有一个模型，能完整解出哪怕一道。如今，GPT-5.5 成为了首个破例者！

　　编程 AI「终极考试」，从 0 重建程序

　　ProgramBench 到底有多难？

　　传统编程基准，不论是 SWE-bench，还是 HumanEval，本质上是「修 bug」或「补函数」。

　　给模型一个已有代码库，告诉它哪里坏了，让它修 bug。

　　这是开卷考试，甚至是半开卷，ProgramBench 则完全不同。

　　它给一个编译好的可执行文件和一份文档，然后说：从 0 开始，把这个程序重写出来。

　　不给源码，不许反编译，不许联网。

　　200 个任务，从小工具 jq、ripgrep，到重量级的 FFmpeg、SQLite、PHP 编译器。

　　OpenAI 研究员 Noam Brown 此前曾表示，「是时候淘汰 GQPA 这类评估方式，引入一套全新的了」。

　　刚发布之初，所有刷榜的 AI 几乎全挂，这次，GPT-5.5 终于扳回了一局。

　　GPT-5.5 首破纪录：

　　同一题，C和 Python 两种解法

　　GPT-5.5 攻克的第一个任务是——cmatrix，一个经典的终端「黑客帝国」数字雨效果程序。

　　让研究人员惊讶的是，GPT-5.5 的 high 和 xhigh 两个推理级别，选择了完全不同的语言来解决同一道题。

　　high 版本用C语言，xhigh 版本用 Python。

　　最终结果，两个都通过了全部行为测试。

　　GPT-5.5 high 的策略堪称教科书级别：先用 10 轮探索测试了 40 多种 flag 组合，彻底摸清了原程序的 CLI 行为。

　　然后一次性写出完整的C语言实现，仅用 5 次微调修补就搞定。

　　GPT-5.5 xhigh 更彻底，27 步探索，把每一条 CLI 路径都摸了个遍，然后一气呵成写出完整的 Python 实现。

　　关键数字来了。

　　未开高推理模式的 GPT-5.5（medium），成绩勉强比 Claude Sonnet 4.6 好一点。

　　但一旦切到 xhigh 模式，性能直接起飞。

　　不仅首次解出一道题（通过率 0.05%），还创下了「几乎解出」任务的新纪录：26 个任务通过了 95% 以上的单元测试。

　　更值得注意的是，GPT-5.5 xhigh 在完整的累积直方图上全程碾压所有对手。

　　无论你选什么指标，平均分、中位数、≥90% 通过率、≥50% 通过率，它都是第一。

　　178 次调用，Opus 4.7 栽在两个 bug 上

　　对比之下，Claude Opus 4.7 xhigh 的表现令人唏嘘。

　　花费$10.74，调了 178 次 API，是 GPT-5.5 普通版$1.04、17 次调用的 10 倍。

　　结果，19 个测试失败，全场最差。

　　Opus 4.7 的失败原因出人意料地简单：

　　Bug 1：颜色解析大小写敏感。

　　代码用了strcmp ()而不是strcasecmp ()。输入「GREEN」「Red」「BLUE」全部被判无效。

　　一个函数调用的差异，直接导致 11 个测试失败。

　　178 步探索里，Opus 从来没有测试过大写或混合大小写的颜色输入，它只试了小写和一个无效颜色「purple」。

　　Bug 2：无效颜色的退出码写错了。

　　原程序遇到无效颜色返回 exit (0)，Opus 写成了 exit (1)。

　　讽刺的是，Opus 在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?"输出的是exit=0。但在测试自己的实现时，却没有发现这个差异。

　　8 个测试失败。

　　不过，Opus 4.7 有一个亮点值得一提：它在处理缺失的 ncurses 头文件时展现了惊人的系统工程能力。

　　其他三个模型发现ncurses.h缺失后，直接改用 ANSI 转义序列。

　　Opus 4.7 却花了约 20 步深入调查，用ldconfig -p发现了运行时 .so 文件，用nm -D检查导出符号，然后手写了一份 106 行的头文件声明，直接链接动态库。

　　这是真正的创意工程，但并没有带来更好的成绩。

　　还有 199 题未解

　　ProgramBench 的出现，标志着编程基准进入了一个新阶段。

　　SWE-bench 的通过率已经被卷到了 88.7%。GPQA 上 AI 已经超过了大多数 PhD。

　　这些 eval 正在以惊人的速度「融化」，分数越来越高，区分度越来越低。

　　而 ProgramBench，200 道题，至今只有 1 道被解出，通过率：0.05%。

　　更重要的是，这次破纪录揭示了一个关键趋势：「推理算力」正在成为编程 AI 能力的核心变量。

　　GPT-5.5 在默认推理模式下表现平平，但高推理模式直接改变了质的飞跃。

　　这意味着，不是模型不够聪明，而是之前给它「思考」的时间不够。

　　ProgramBench 的 200 道题里，还有 199 道在等着。

　　从零到一，不只是起点

　　回顾 AI 发展史上的每一次「首破零」时刻——

　　AlphaGo 首次击败职业棋手、GPT-4 首次通过律师资格考试、o1 首次在数学奥赛题上拿分。

　　「从零到一」从来不是线性进步的起点，而是指数爆发的信号弹。

　　Noam Brown 提出的推理算力 Scaling Law，在 ProgramBench 上得到了迄今为止最直观的验证：

　　同一个 GPT-5.5 底座，medium 模式几乎交白卷，high 模式满分通关，xhigh 模式断层碾压。

　　智能不再是一个固定值，而是算力的函数。

　　这意味着什么？意味着通往 ASI 的路径，可能不需要等待下一代架构革命。

　　只要推理算力持续扩展，只要 Scaling Law 不撞墙。

　　今天在 ProgramBench 上只能重建 cmatrix 的模型，明天就可能重建 SQLite，后天就可能重建整个 Linux 内核。

　　参考资料：

　　https://x.com/polynoamial/status/2054255862441812099

　　https://programbench.com/blog/gpt-5-5-first-solve/

GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元

我们的产品

相关链接

关于我们

联系我们