Qwen3.7-Max闯入全球编程前二!前面只剩Claude

  新智元报道

  Code Arena 最新放榜,Qwen3.7-Max 以 1541 分冲进全球第四,成为前五中唯一的非 Claude 模型。编程,中国模型第一次杀到这个位置。

  就在今天,Code Arena 最新榜单出炉!

  Qwen3.7-Max 以 1541 分闯入全球前四,一举超越了 GPT-5.5、Gemini 3.5 Flash 等一众顶尖模型。

  排在它前面的,只剩 Claude Opus 4.7 和 Opus 4.6。

  换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于 Anthropic,位列第二。

  Qwen3.7-Max 闯入全球前五

  唯一非 Claude 模型

  其实在 Code Arena 放榜之前,Qwen3.7-Max 在海外开发者圈子里已经杀出了名声。

  Atomic Chat 做了一场硬碰硬的对比,让 Opus 4.7、GPT-5.5 和 Qwen3.7-Max 同台竞技,任务是写一个能自我训练的俄罗斯方块 AI。

  结果,Qwen3.7-Max 不仅只用$1.32 的 token 成本就把 Opus 4.7 和 GPT-5.5 都超越了,而且性能还提升了 56%。

  另一位海外开发者选择让 Qwen3.7-Max 构建了一个宇宙的 3D 模型,效果足以用震撼形容。

  在「3D 像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max 的输出速度和质量同样全面胜出。

  开发者 Paul Couvert 更是盛赞,Qwen3.7-Max 接入 Hermes Agent 和 OpenCode 之后,基本可以替掉 GPT-5.5 和 Opus 4.7。

  编程,太能打了

  不过跑分再高,不如真刀真枪拉出来练练。

  我们给 Qwen3.7-Max 安排了一场硬核的「赛车游戏」挑战。

  一段详细的 Prompt 丢进去,不一会儿功夫,Qwen3.7-Max 直出一个可玩的 HTML 的文件。

  第一版有个小 bug,A/D转向键左右搞反了。

  但经过第二轮简单对话微调,一个体验完整的 3D 赛车游戏就跑了起来。

  打开的瞬间,说实话,有点被惊到了。

  4 车同台,3 圈环形赛道竞速,赛道上散落着 100 多枚金币,碰到障碍物会减速、失控。

  赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

  但真正让人意外的,是两个只有 Qwen3.7-Max 做到的细节。

  一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

  另一个是音效。Prompt 最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个 bonus 吃进去了,引擎声和金币叮咚都安排上了。

  再看看其他选手的表现。

  Gemini 3.5 Flash 的画面明显单薄了一档,缺少那种呼之欲出的立体感。

  UI 布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

  相比之下,Qwen3.7-Max 的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

  Claude Opus 4.6 的效果,有点让人一言难尽了。

  不仅赛道上金币少得可怜,而且 3 辆 AI 赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

  最后是 GPT-5.5。

  可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

  但不知道为什么,金币被做成了黄色的「甜甜圈」……

  造型倒是小事。关键是,Gemini、Claude、ChatGPT 三家都修了好几轮 bug 才跑通全部功能。

  只有 Qwen3.7-Max 首轮生成就基本可玩。

  跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

  Agent 时代的「基座」模型

  Qwen3.7-Max 之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

  几天前,阿里发布 Qwen3.7-Max 的时候,给了它一个非常特殊的标签:Agent 基座模型

  它生来,就是为长时间自主执行任务设计的模型。

  内测数据显示,在一次自主编程任务中,Qwen3.7-Max 连续运行 35 个小时,执行 1158 次工具调用。

  最终生成的代码相较于 Triton 参考实现,达到了惊人的 10 倍几何平均加速。

  更令人震撼的是它的「持久战」能力——

  在推演进行到第 30 个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

  全程零上下文退化、零指令漂移、零死循环!

  不得不说,这件事的难点不在 1000 次工具调用本身。MCP 协议铺开之后,调 1000 次工具不算稀奇。

  难点在于,35 小时的连贯推理。

  绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

  Qwen3.7-Max 把「持续做对事」这件事,做出来了。

  核心技术揭秘

  Qwen3.7-Max 这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

  第一个是,环境扩展。

  Qwen3.7-Max 在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

  同一道题,有时候在 Claude Code 的框架里做,有时候在 OpenClaw 里做,有时候换一种验证方式。

  效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

  这解释了一个反直觉的现象,Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

  第二个升级是长程自主执行。

  在训练中,团队引入了「动态累积生存博弈」框架。

  也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

  这里有一个直观的数据,YC-Bench 模拟创业公司经营一整年,Qwen3.7-Max 做到了 208 万美元营收,是上一代(105 万)的两倍。

  更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

  这就是 35 小时 kernel 优化案例的底层支撑,也是为什么在 Kernel Bench L3 上,Qwen3.7-Max 能让 96% 的场景跑出加速效果。

  而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用 Agent 基座。

  编程决赛,多了一个搅局者

  Code Arena 上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是 Agent 级的真刀真枪。

  今天,Qwen3.7-Max 凭借着 1541 分的成绩楔进了第四的位置,卡在 Opus 4.6 Thinking 和 Opus 4.6 之间。

  在这条 Claude 统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

  全球编程模型的竞赛,已经不再是硅谷的独角戏了。

  参考资料:

  https://arena.ai/leaderboard/code/webdev