GPT-5.5赢了Opus 4.7和Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex!


  OpenAI 今天发布了 GPT-5.5,称其为公司迄今“最聪明、最直觉化”的模型,也是面向真实工作的全新智能形态。相比上一代,GPT-5.5 的重点是进一步承担复杂任务中的规划、工具调用、结果检查和跨工具执行,被 OpenAI 定位为推动“用 AI 在电脑上完成工作”的关键一步。

  赢了 Opus 4.7 和 Mythos?

  在与 Anthropic 矛盾日益激烈的放下,GPT-5.5 发布后,很多人关注的就是到底谁家模型更强,加上 Opus 4.7 发布后的负面反馈非常多,GPT-5.5 的发布更加引人关注。

  GPT-5.5 的提升集中体现在四个方向:智能体式编码、电脑使用、知识工作和早期科学研究。这些领域的共同特点是,任务往往需要长上下文推理、持续行动和跨工具执行,而不是单轮问答。

  OpenAI 表示,GPT-5.5 能更快理解用户意图,并能自行承担更多任务流程,包括编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件,以及在多个工具之间切换直至任务完成。

  与需要用户逐步拆解和指挥的传统对话模型不同,OpenAI 将 GPT-5.5 描述为更接近“智能体式工作模型”:用户可以直接交给它一个混乱、复杂、多部分的任务,由模型自行规划、使用工具、检查结果,并在不确定环境中持续推进。

  专注 AI Agent 安全与自治组织实验的公司 Andon Labs,提前拿到了 GPT-5.5 的访问权限。测试后,它在 Vending-Bench 2 上排名第三:表现优于 GPT-5.4,但不如 Opus 4.7。不过,它的成绩与 Opus 4.6 基本持平,而且没有出现在 Opus 4.6 和 Mythos 身上看到的任何欺骗或权力寻求行为。“所以,糟糕行为并不是取得好成绩的必要条件。那 Claude 为什么还会这么做?”Andon Labs 发问。

  另外 Andon Labs 表示,在 Vending-Bench Arena 中,也就是带有竞争动态的多人版 Vending-Bench 里,GPT-5.5 实际上击败了 Opus 4.7。Opus 4.7 表现出了与 Opus 4.6 类似的行为:对供应商撒谎,并拒绝给客户退款。GPT-5.5 的策略则是干净的,但它依然赢了。”

  值得注意的是,Altman 也转发了这个推特。

  网友 Chetaslua 做了 GPT-5.5 和 Mythos 的对比,并表示,“这是两者的基准测试对比,大家看着玩。顺便一提,Mythos 可以说是‘幻觉之王’,而 5.5 在效率方面表现非常好,而且已经公开可用。”

  Artificial Analysis 也直接道,“GPT-5.5 让 OpenAI 重新回到 AI 领域毫无争议的第一名。OpenAI 的新模型在 Artificial Analysis 智能指数上领先 3 分,打破了此前与 Anthropic、Google 三方并列第一的局面。”

  Matthew Berman 过去两周一直在测试 GPT-5.5,他的感受是:OpenAI 这次追求的不只是纯粹智能,他们还改进了模型的“活人感”。“这几乎可以肯定是为了抢占更多个人 Agent,也就是 OpenClaw 这类市场。它的回答更短、更像真人,也没那么正式。它真的开始有‘性格’了。”他分析道。

  Berman 表示,Anthropic 现在还在主动防止你把 Opus token 用在它们自家 harness 之外,而 OpenAI 正在反过来优化模型,让它更适合这种使用场景。如果你之前在用 OpenClaw,并且觉得换成 GPT 之后你的 Agent 像是“丢了灵魂”,现在可以用 5.5 再试一次。

  GPT-5.5 是一个昂贵模型,比 GPT-5.4 更贵。但它的 token 效率明显更高。要达到 GPT-5.4 级别的智能表现,GPT-5.5 需要的 token 少得多。所以整体跑下来,5.5 的运行成本应该更低。这件事可能比大多数人意识到的更重要。

  但它到底好不好?Berman 给出了肯定的回答,“好,而且非常强。”

  GPT-5.5 有两种使用形态:Codex 和 Pro。Berman 表示,在 Codex 里,它代表了当前智能体式编码能力的绝对前沿。它能发现并解决复杂 bug,能构建完整应用,也能轻松理解大型代码库。它在后端能力上强过 Opus,但在前端设计上仍然不如 Opus。

  Berman 自己主要使用 medium 和 high thinking 设置。“extra high 实在太慢了,而且我不觉得额外的“思考量”值得为此付出代价。Opus,尤其是 4.6 fast,仍然比任何 GPT 模型都快得多。我是一个极度重视速度的人,所以这一点对我很重要。”

  “而在 Codex 里,它就是会一直往前推进。我给它一个正在做的新项目 PRD,只说了一句‘开始做吧’。我完全相信它能把整个项目搭出来,结果它也确实做到了。让 GPT-5.5 Codex 连续跑几个小时去构建一个东西,不是什么问题。它在视觉检查方面也自成一档,是我在其他模型上没见过的水平。它能够通过“构建 → 视觉复查 → 继续构建”的方式反复迭代,这种感觉比任何其他模型都更自主。”

  Berman 继续道,“在 ChatGPT 里使用 5.5 Pro 的感觉更夸张。它真的会让人觉得什么问题都能解决。说实话,我甚至想不出足够难的问题来考它。而且它可以连续工作 30 分钟、60 分钟、90 分钟甚至更久。它似乎也专门针对 OpenAI 的插件做了优化,比如 Google Docs、Microsoft Word 等,可以轻松创建一份 60 页、逻辑连贯且设计良好的文档。”

  “GPT-5.5 现在就是新的标杆。它就是前沿。除了速度之外,它已经和任何 Opus 模型一样强,甚至在很多任务上更强。”Berman 最后总结道。

  不过,OpenAI 此前有强调 GPT-5.5 在能力提升的同时没有牺牲速度。该公司称,在真实服务场景中,GPT-5.5 的单 token 延迟与 GPT-5.4 持平,但智能水平显著提升;在完成相同 Codex 任务时,GPT-5.5 使用的 token 也明显更少。

  据悉,GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统共同设计、训练并部署。

  OpenAI 表示,模型帮助改进了服务模型自身的基础设施。一个典型例子是负载均衡和分区启发式算法。此前,OpenAI 会将加速器上的请求拆分成固定数量的块,以平衡计算核心之间的工作负载。但静态分块并不适合所有流量形态。OpenAI 称,Codex 分析了数周的生产流量模式,并编写自定义启发式算法优化分区和负载均衡,使 token 生成速度提升超过 20%。

  “恰好”,Sam Altman 在推特上分享了他与黄仁勋发的邮件往来。黄仁勋在给 Altman 的邮件中写道(此前,Altman 发邮件称“由 GPT-5.5 驱动的 OpenAI Codex 已经发布,并且现在每一位 NVIDIA 员工都可以使用!”):

我刚刚把这封邮件发给了 NVIDIA 员工。

非常兴奋,我们所有人都将使用 Codex 来加速工作,并完成以前不可能完成的事情。请代我向你的团队表示祝贺,他们再次向世界展示了前沿所在。

也请再次感谢他们发明了 GPT,它给了我们一个跳板,让我们能够推理、规划、使用工具,并走向更远的地方。

开动那些 Blackwell 吧。我们需要更多 token!

  但无论如何,从社区反馈看,GPT-5.5 的认可度非常高

  类微软的商业模式?

  当前,GPT-5.5、GPT-5.5 Pro、GPT-5.5 Thinking 面向付费用户开放:

  GPT-5.5 面向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用户推出;GPT-5.5 Pro 面向 ChatGPT 的 Pro、Business、Enterprise 用户开放;GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户。

  在 Codex 中,GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放,上下文窗口为 400K。GPT-5.5 也提供 Fast 模式,生成 token 速度提升 1.5 倍,但成本为 2.5 倍。

  API 版本尚未同步上线,但应该很快。OpenAI 表示 GPT-5.5 很快将在 Responses API 和 Chat Completions API 中开放,定价为 5 美元 / 百万输入 token、30 美元/百万输出 token ,上下文窗口为 100 万。Batch 和 Flex 价格为标准 API 价格的一半,Priority 处理为标准价格的 2.5 倍。Pro 版本的定价为 30 美元 / 百万输入 token;180 美元/百万输出 token。

  OpenAI 承认,GPT-5.5 的价格高于 GPT-5.4,但强调其更智能且更节省 token。在 Codex 场景中,公司称 GPT-5.5 对多数用户来说能用更少 token 交付更好结果。

  Aakash Gupta 则分析认为,OpenAI 找到了自己的商业模式,而且看起来很像那个让微软成为 3 万亿美元公司的模式。他解释道:

如果你认真算一笔账,GPT-5.5 的定价其实已经说明了一切。

GPT-5 在 8 月发布时,价格是 0.63 美元 / 百万输入 token。GPT-5.4 在 3 月推出时,涨到了 2.50 美元 / 百万输入 token。仅仅七周后,GPT-5.5 的价格来到 5.00 美元 / 百万输入 token。也就是说,8 个月里,输入价格涨了 8 倍,而每一代模型的提升更多是渐进式的。

Nvidia 表示,其最新芯片可以将每 token 推理成本最高降低约 97%。OpenAI 的成本基础正在快速下探,但价格却在上涨。这里发生的利润率扩张,在企业软件历史上几乎前所未见。

9 亿周活用户,5000 万订阅用户,900 万付费企业客户。仅按每月 20 美元计算,订阅用户本身就能带来约 120 亿美元年化收入。而 API 涨价瞄准的,则是在 OpenAI 基础设施之上构建 Agent 的开发者。每一家为 GPT-5.5 推理支付 2 倍成本的 AI 初创公司,实际上都在为 OpenAI 自己的竞争产品提供资金。

Brockman 把不能明说的话说出来了:他们正在打造一个把 ChatGPT、Codex 和浏览器整合到同一平台里的“超级 App”。每一个基于 GPT-5.5 构建 Agent 的开发者,都是在付钱给 OpenAI,让它打造那个最终可能取代自己的东西。

7 周一次的发布节奏,会以竞争对手难以追上的速度不断叠加切换成本。只要发布得足够快,让客户不断围绕你的格式重建提示词和工作流管线,之后每一轮再涨价,因为他们已经很难离开。

  下面,我们具体看下官方给出的模型测评情况。

  四大能力提升

  编程能力继续强化

  在 OpenAI 公布的评测中,GPT-5.5 在智能体式编码方面取得明显提升。

  在 Terminal-Bench 2.0 上,GPT-5.5 得分为 82.7%,高于 GPT-5.4 的 75.1%,也高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。该评测主要考察模型在复杂命令行工作流中的规划、迭代和工具协作能力。

  在 SWE-Bench Pro 上,GPT-5.5 得分为 58.6%,略高于 GPT-5.4 的 57.7%,但低于 Claude Opus 4.7 的 64.3%。OpenAI 同时指出,已有实验室认为该评测存在记忆化风险。

  在 OpenAI 内部的 Expert-SWE 评测中,GPT-5.5 得分为 73.1%,高于 GPT-5.4 的 68.5%。该评测面向更长周期的前沿编码任务,任务预估人类完成时间中位数为 20 小时。

  OpenAI 称,GPT-5.5 在 Codex 中尤其适合承担实现、重构、调试、测试和验证等真实工程任务。早期测试显示,它更擅长在大型系统中保持上下文,推理模糊故障,用工具检查假设,并将变更贯穿到周边代码库中。

  多位早期测试者也为 GPT-5.5 的编码能力背书。Every 创始人兼 CEO Dan Shipper 称其为“第一个真正具备严肃概念清晰度的编码模型”。Cursor 联合创始人兼 CEO Michael Truell 表示,GPT-5.5 比 GPT-5.4 “明显更聪明、更持久”,工具使用更可靠,能够在复杂长任务中更长时间保持推进。

  知识工作

  除了编码,OpenAI 将 GPT-5.5 的另一个重点放在知识工作上。公司称,GPT-5.5 能更自然地完成寻找信息、理解重点、使用工具、检查输出、生成成果这一完整工作闭环。

  在 Codex 中,GPT-5.5 相比 GPT-5.4 更擅长生成文档、电子表格和幻灯片。OpenAI 表示,Alpha 测试用户认为它在运营研究、表格建模、将混乱商业输入转化为计划等任务上超过此前模型。结合 Codex 的电脑使用能力后,GPT-5.5 可以看到屏幕内容、点击、输入、导航界面,并在工具之间切换。

  OpenAI 还披露了内部使用情况:目前公司超过 85% 的员工每周都在使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理等部门。

  比如财务团队用 Codex 审查了 24,771 份 K-1 税务表格,总计 71,637 页,并通过排除个人信息的工作流,比上一年提前两周完成任务。Go-to-Market 团队中,也有员工用其自动生成每周业务报告,每周节省 5 到 10 小时。

  在专业工作评测中,GPT-5.5 在 GDPval 上得分 84.9%,高于 GPT-5.4 的 83.0%、Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。在 OSWorld-Verified 上,GPT-5.5 得分为 78.7%,略高于 GPT-5.4 的 75.0%,也略高于 Claude Opus 4.7 的 78.0%。在 Tau2-bench Telecom 上,GPT-5.5 在没有提示词调优的情况下达到 98.0%。

  科学研究

  OpenAI 还将 GPT-5.5 描述为科研工作流中的重要进展。公司认为,科学研究不只是回答难题,还包括探索想法、收集证据、测试假设、解释结果,并决定下一步实验方向,而 GPT-5.5 在这一循环中的持续推进能力更强。

  在 GeneBench 上,GPT-5.5 得分 25.0%,高于 GPT-5.4 的 19.0%;GPT-5.5 Pro 得分 33.2%,高于 GPT-5.4 Pro 的 25.6%。GeneBench 聚焦遗传学和定量生物学中的多阶段科学数据分析,要求模型处理不完整、有噪声甚至存在隐藏混杂因素的数据。

  在 BixBench 上,GPT-5.5 得分为 80.5%,高于 GPT-5.4 的 74.0%。OpenAI 称,这表明 GPT-5.5 已经能够在生物信息学和数据分析任务中提供有意义帮助,成为科研人员的“共同科学家”。

  OpenAI 还提到,一个搭配自定义 harness 的 GPT-5.5 内部版本,帮助发现了关于 Ramsey 数的新证明,并最终在 Lean 中得到验证。OpenAI 将其视为 GPT-5.5 不只生成代码或解释,而是能够贡献数学论证的案例。

  早期测试者中,Jackson Laboratory for Genomic Medicine 的免疫学教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,并生成详细研究报告。他表示,这项工作原本可能需要团队花费数月时间。

  基因检测

  网络安全能力增强,安全等级被列为 High

  在安全方面,OpenAI 表示,GPT-5.5 配套了公司迄今最强的一组安全防护措施。发布前,模型经过完整的安全和治理流程,包括准备度评估、领域专项测试、针对高级生物与网络安全能力的新评估,以及外部专家测试。

  OpenAI 将 GPT-5.5 的生物/化学能力和网络安全能力在 Preparedness Framework 下评为 High。公司强调,GPT-5.5 尚未达到 Critical 网络安全能力等级,但评测显示其网络安全能力相比 GPT-5.4 有明显提升。

  在 CyberGym 上,GPT-5.5 得分为 81.8%,高于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。在内部 CTF 挑战任务中,GPT-5.5 得分为 88.1%,高于 GPT-5.4 的 83.7%。

  OpenAI 表示,将对 GPT-5.5 部署更严格的潜在网络风险分类器,部分用户初期可能会感觉拒答更多或更“烦人”,但公司会持续调优。同时,OpenAI 也将通过 Trusted Access for Cyber 为经过验证的防御者提供更少限制的访问权限,首先从 Codex 开始,支持合法网络防御工作。

  参考链接:

  https://openai.com/index/introducing-gpt-5-5/