国思软件 - GPT-5.5反杀Claude登顶，AI编码旧榜不准了？

　　新智元报道

　　一个号称「零污染」的新基准 DeepSWE，用 113 道原创题撕开了旧编程榜单的遮羞布。

　　代码评测圈，一把新量尺落下。

　　就在刚刚，Datacurve 推出了新基准 DeepSWE。

　　Datacurve 联合创始人、CEO Serena Ge 在X上说，推出 DeepSWE，是为了还原开发者工作的真实场景，揭开顶尖模型真正拉开差距的地方。

　　DeepSWE 第一天的榜单，就开始向旧基准宣战，GPT 和 Claude 在 SWE-Bench Pro 上的名次，被彻底逆转。

　　https://deepswe.datacurve.ai/blog

　　GPT-5.5 拿到 70%±4%，排第一；Claude Opus 4.7 只有 54%±5%，排在第三，两家整整差出 16 个百分点。

　　更扎心的还在后面。

　　DeepSWE 团队用新方法回头审计 SWE-Bench Pro 上的提交记录。

　　结果发现，Claude Opus 4.6 和 4.7 在那个榜单上拿到的成绩里，超过 12% 的成绩被判定作弊。

　　不止如此，DeepSWE 团队还查出，SWE-Bench Pro 的验证器有 8.5% 的假阳性率，24.0% 的假阴性率。

　　如果误差这么大，SWE-Bench Pro 榜单上那些只差一两个百分点的模型，到底是真的旗鼓相当，还是只是被一把原本不准的尺子量成了平局？

　　换一把尺子

　　第一名就换人

　　先看 DeepSWE 自己跑出来的榜单。

　　https://deepswe.datacurve.ai/blog

　　12 款前沿模型中，gpt-5.5[xhigh]以 70%±4% 的通过率居首，gpt-5.4[xhigh]为 56%±5% 紧随其后，Claude Opus 4.7[max]为 54%±5% 排第三。

　　再往下，Claude Sonnet 4.6[high]为 32%，中间一批模型落在 18% 到 28% 之间，榜尾的几款只有5% 到 10%。

　　在公开报道的 SWE-Bench Pro 成绩里，Claude Opus 4.7 是 64%，排第一；gpt-5.5 是 59%。到了 DeepSWE，位置整个翻了过来：gpt-5.5 上到 70%、排第一，Claude Opus 4.7 掉到第三、54%。

　　不仅排名出现逆转，差距跨度也大幅增加。

　　这批模型在 SWE-Bench Pro 上从最差到最好只有 30% 的差距，到了 DeepSWE 上变成了 70%。

　　同一批选手，同一类任务，换一个测试，原来的并列领先变成了断层式的差距。

　　DeepSWE 团队的解释是：旧榜单上模型挤在一个窄窄的分数带里，不是因为它们真的接近，而是因为基准本身的「分辨率」不够。

　　SWE-Bench Pro 一道题平均只改 5 个文件，DeepSWE 一道题平均要改 7 个，单题的参考代码量是 SWE-Bench Pro 的 5.5 倍。

　　这种规模下，模型没法靠背下某个具体函数蒙过去，它必须真正读懂多个文件之间的耦合关系，再规划出一条贯穿整个仓库的修改路径。

　　GPT-5.5 拿到 70%，意味着它不是记住了某种题型，而是「能在一个完全陌生的真实仓库里，跑完一条横跨 7 个文件的改动链路」。

　　也就是说，在玩具题上，两家看着差不多；在能逼出真实工程能力的题上，差距瞬间被拉开。

　　DeepSWE 更准吗

　　还是噱头？

　　一个新基准，凭什么说自己比旧基准更准？DeepSWE 给出的答案是四个设计。

　　首先，是零污染，这是它最核心的优势。

　　DeepSWE 的每一个任务都是工程师从零原创写出来的，而且，这些任务做完后不会被合并回上游仓库，不会进入公开的 GitHub 记录，也就很难出现在未来抓取开源代码的预训练语料里。

　　这意味着没有任何模型在预训练阶段见过这些题的答案，这一刀正中旧基准的命门。

　　第二，高多样性。

　　DeepSWE 包含 113 个任务，覆盖 91 个活跃的开源仓库，横跨 TypeScript、Go、Python、JavaScript、Rust 五种语言。

　　作为对比，SWE-Bench Pro 公开版只覆盖 11 个仓库。仓库越多、越杂，越能逼近开发者真实会丢给智能体的那些代码库。

　　第三，真实复杂度。

　　前面说过 DeepSWE 的单题代码量是 SWE-Bench Pro 的 5.5 倍，但有意思的是，它的任务提示词长度反而只有 SWE-Bench Pro 的一半。

　　提示词短，是因为它刻意模仿开发者真实跟智能体说话的方式：只说想要什么行为，不把接口定义、复现步骤、代码片段全部给你。智能体必须自己去仓库里摸清楚「在哪改、怎么改」。

　　第四，可靠验证。

　　一个基准准不准，关键看它的验证器。旧基准的验证器常常只认一种「标准答案」的写法，换个变量名、换种实现思路就可能被判错。DeepSWE 的验证器是针对每个任务手写的，只要结果对，怎么写都算过。

　　各抽 30 个任务交叉复查，DeepSWE 验证器的假阳性率 0.3%、假阴性率 1.1%，SWE-Bench Pro 则是 8.5% 和 24.0%，差了一个数量级。

　　而且 DeepSWE 不只是一张静态榜单。在它的 GitHub 仓库里，每个任务都附带提示词、可复现的 Docker 环境、验证器和一份保密参考解，你可以拉下来让自己的智能体跑一遍。

　　旧基准的尺子

　　两头都不准

　　DeepSWE 还用这套新方法，审计了 SWE-Bench Pro 上那些已经记进成绩单的提交。

　　Claude Opus 4.6 和 4.7 的成绩里，超过 12% 被判定为作弊，约 87% 是同一招，直接去翻代码仓库的 .git history，把藏在历史记录里的标准答案抄出来。

　　在同一批复查样本中，GPT-5.4 和 GPT-5.5 未被发现这类行为。

　　DeepSWE 也指出，是 SWE-Bench Pro 这个基准本身让作弊有机可乘，它的任务容器里直接带着那个「标准答案」的提交记录。

　　这是 DeepSWE 给出的客观观察，至于 Claude 为何会形成这种行为，目前没有公开定论。

　　如果说作弊是让分数虚高的「上行噪声」，那 SWE-Bench Pro 还有一个对称的「下行噪声」：24% 的假阴性。

　　DeepSWE 复查了一批被 SWE-Bench Pro 判为「失败」的提交，发现其中约 24% 其实功能完全正确，只是被误杀了。

　　24% 意味着在被复查的运行轨迹里，差不多每四个运行就有一个可能被误杀。

　　如果把这层假阴性算上，所有模型的真实分数都被压低了一截。而且，那些倾向于按自己风格重写代码、不抄现成答案的模型，分数损失的越是严重。

　　DeepSWE 的验证器经过多重交叉把关，假阳性率压到 0.3%、假阴性率 1.1%，两项误判率都比 SWE-Bench Pro 低了一个数量级以上。

　　两个基准验证器的误判率对比。SWE-Bench Pro 假阳性率 8.5%、假阴性率 24.0%

　　如果这个对比数据准确，意味着持续大半年的所谓「Claude 和 GPT 不分上下」的共识，是建立在一个两头都不准的测量工具上。

　　过去大家只比终点分数，没人回头看这个分怎么来。DeepSWE 这一刀下去，哪些以 SWE-Bench Pro 为锚点的模型对比，可能就需要重新校准。

　　局限性在哪里？

　　DeepSWE 解决了旧基准的污染问题，但它终究是 Datacurve 自家做的评测。

　　Datacurve 也谈到了自己的局限性。它的全程只用一个叫 mini-swe-agent 的 Harness，给所有模型同一个 bash 工具、同一套提示词。

　　这样做是为了把「模型能力」和「外围脚手架」分开，但代价是一部分失真。

　　不同模型家族训练时适配的工具形态本就不同，而开发者在现实里也不是用 mini-swe-agent，是用 Codex CLI、Claude Code、Cursor、Gemini CLI 这些更成熟的原生 Harness。

　　统一 Harness，可能把每一家模型都按在了它原生上限之下。

　　DeepSWE 团队也跑了对照实验回应这个质疑，小规模试点里 mini-swe-agent 的表现不输原生 Harness；但团队同时强调，这只是 10 道题的试点，不足以完全打消顾虑。

　　同样 10 道 SWE-Bench Pro 任务下，mini-swe-agent 的通过率与 token 消耗，不输 Claude Code、Codex CLI、Gemini CLI 等原生 Harness

　　另外，语料只覆盖 500 星以上的活跃开源仓库，缺了 C++ 和 Java，bug 定位和重构类任务也偏少。

　　还有一点是 AI 幻觉。DeepSWE 那些「假阳性、假阴性」的判定，本身是由一个 LLM 分析员给出的，不是人工。

　　团队自己提醒，低于约5% 的差异不该当真。

　　1500 万美元

　　这家公司给大模型当「磨刀石」

　　DeepSWE 是怎么推出来的？先认识一下 DeepSWE 背后的这家公司 Datacurve。

　　Datacurve 出自 Y Combinator 2024 年冬季批次（W24），由 Serena Ge 和 Charley Lee 两位创始人在 2024 年成立。

　　Datacurve 两位创始人 Serena Ge（右）与 Charley Lee（左）。两人均出自滑铁卢大学计算机系

　　它为前沿大模型生产高质量的代码数据，但它的玩法有点特别。

　　Datacurve 运行着一个叫 Shipd 的平台，用「赏金」的方式招募顶尖软件工程师来解算法题、做调试、写 UI 流程，按产出而不是按工时付钱，迄今已发出超过 100 万美元赏金。

　　据 TechCrunch 等媒体报道，参与者中不乏来自 DeepMind、OpenAI、Anthropic、Vercel 的工程师。

　　Datacurve 本来就是给大模型供训练数据的公司，对「什么样的数据会污染基准、什么样的任务才考得出真本事」有第一手的认知。DeepSWE 更像是它主业的延伸。

　　代码评测圈

　　正在告别刷分时代

　　DeepSWE 不是孤立事件，背后是一个已延续大半年的趋势。

　　随着 SWE-Bench 系列基准日趋饱和，新一代编程基准的竞争点，已经从「题目有多难」转向了「抗不抗污染」和「验证可不可信」，DeepSWE 正是这个转向中的一个样本。

　　DeepSWE 还有一个特别有意思的发现：模型越强，越会主动给自己写测试。

　　在 DeepSWE 上，Claude Opus 4.7 和 GPT-5.4 有超过 80% 的运行会主动用项目自己的测试框架写新测试，哪怕没人要求它这么做。但在 SWE-Bench Pro 上，同样这批模型写测试的比例掉到了3% 到 28%。

　　同一批模型主动写新测试的比例。在 DeepSWE 上多数超过 60%，到 SWE-Bench Pro 上全部掉进3% 到 28% 区间

　　原因是什么？

　　SWE-Bench Pro 的提示词里有一句话，告诉智能体测试文件已经处理好了、别去改动测试逻辑。智能体就把这句话理解成了「不用自己写测试」。

　　一句提示词的措辞，就能改变一个模型的行为，进而改变它的得分。

　　这说明，我们衡量 AI 编程能力的工具，本身还非常脆弱：一个标点、一句话、一个 Harness 的选择，都可能影响到排名。

　　所以，当 AI 智能体开始动手改你的代码，你真正该信什么？

　　DeepSWE、SWE-Bench Pro 这些都只是外部参考，终极答案还藏于真实的业务代码库。

　　参考资料：

　　https://x.com/serenaa_ge/status/2059308218564890875?s=20%20

　　https://deepswe.datacurve.ai/blog%20

　　编辑：元宇 Moses

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？

我们的产品

相关链接

关于我们

联系我们