国思软件 - GPT-5.5赢了Opus 4.7和Mythos？奥特曼晒黄仁勋内部信：英伟达全员用上 Codex！

　　OpenAI 今天发布了 GPT-5.5，称其为公司迄今“最聪明、最直觉化”的模型，也是面向真实工作的全新智能形态。相比上一代，GPT-5.5 的重点是进一步承担复杂任务中的规划、工具调用、结果检查和跨工具执行，被 OpenAI 定位为推动“用 AI 在电脑上完成工作”的关键一步。

　　赢了 Opus 4.7 和 Mythos？

　　在与 Anthropic 矛盾日益激烈的放下，GPT-5.5 发布后，很多人关注的就是到底谁家模型更强，加上 Opus 4.7 发布后的负面反馈非常多，GPT-5.5 的发布更加引人关注。

　　GPT-5.5 的提升集中体现在四个方向：智能体式编码、电脑使用、知识工作和早期科学研究。这些领域的共同特点是，任务往往需要长上下文推理、持续行动和跨工具执行，而不是单轮问答。

　　OpenAI 表示，GPT-5.5 能更快理解用户意图，并能自行承担更多任务流程，包括编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件，以及在多个工具之间切换直至任务完成。

　　与需要用户逐步拆解和指挥的传统对话模型不同，OpenAI 将 GPT-5.5 描述为更接近“智能体式工作模型”：用户可以直接交给它一个混乱、复杂、多部分的任务，由模型自行规划、使用工具、检查结果，并在不确定环境中持续推进。

　　专注 AI Agent 安全与自治组织实验的公司 Andon Labs，提前拿到了 GPT-5.5 的访问权限。测试后，它在 Vending-Bench 2 上排名第三：表现优于 GPT-5.4，但不如 Opus 4.7。不过，它的成绩与 Opus 4.6 基本持平，而且没有出现在 Opus 4.6 和 Mythos 身上看到的任何欺骗或权力寻求行为。“所以，糟糕行为并不是取得好成绩的必要条件。那 Claude 为什么还会这么做？”Andon Labs 发问。

　　另外 Andon Labs 表示，在 Vending-Bench Arena 中，也就是带有竞争动态的多人版 Vending-Bench 里，GPT-5.5 实际上击败了 Opus 4.7。Opus 4.7 表现出了与 Opus 4.6 类似的行为：对供应商撒谎，并拒绝给客户退款。GPT-5.5 的策略则是干净的，但它依然赢了。”

　　值得注意的是，Altman 也转发了这个推特。

　　网友 Chetaslua 做了 GPT-5.5 和 Mythos 的对比，并表示，“这是两者的基准测试对比，大家看着玩。顺便一提，Mythos 可以说是‘幻觉之王’，而 5.5 在效率方面表现非常好，而且已经公开可用。”

　　Artificial Analysis 也直接道，“GPT-5.5 让 OpenAI 重新回到 AI 领域毫无争议的第一名。OpenAI 的新模型在 Artificial Analysis 智能指数上领先 3 分，打破了此前与 Anthropic、Google 三方并列第一的局面。”

　　Matthew Berman 过去两周一直在测试 GPT-5.5，他的感受是：OpenAI 这次追求的不只是纯粹智能，他们还改进了模型的“活人感”。“这几乎可以肯定是为了抢占更多个人 Agent，也就是 OpenClaw 这类市场。它的回答更短、更像真人，也没那么正式。它真的开始有‘性格’了。”他分析道。

　　Berman 表示，Anthropic 现在还在主动防止你把 Opus token 用在它们自家 harness 之外，而 OpenAI 正在反过来优化模型，让它更适合这种使用场景。如果你之前在用 OpenClaw，并且觉得换成 GPT 之后你的 Agent 像是“丢了灵魂”，现在可以用 5.5 再试一次。

　　GPT-5.5 是一个昂贵模型，比 GPT-5.4 更贵。但它的 token 效率明显更高。要达到 GPT-5.4 级别的智能表现，GPT-5.5 需要的 token 少得多。所以整体跑下来，5.5 的运行成本应该更低。这件事可能比大多数人意识到的更重要。

　　但它到底好不好？Berman 给出了肯定的回答，“好，而且非常强。”

　　GPT-5.5 有两种使用形态：Codex 和 Pro。Berman 表示，在 Codex 里，它代表了当前智能体式编码能力的绝对前沿。它能发现并解决复杂 bug，能构建完整应用，也能轻松理解大型代码库。它在后端能力上强过 Opus，但在前端设计上仍然不如 Opus。

　　Berman 自己主要使用 medium 和 high thinking 设置。“extra high 实在太慢了，而且我不觉得额外的“思考量”值得为此付出代价。Opus，尤其是 4.6 fast，仍然比任何 GPT 模型都快得多。我是一个极度重视速度的人，所以这一点对我很重要。”

　　“而在 Codex 里，它就是会一直往前推进。我给它一个正在做的新项目 PRD，只说了一句‘开始做吧’。我完全相信它能把整个项目搭出来，结果它也确实做到了。让 GPT-5.5 Codex 连续跑几个小时去构建一个东西，不是什么问题。它在视觉检查方面也自成一档，是我在其他模型上没见过的水平。它能够通过“构建 → 视觉复查 → 继续构建”的方式反复迭代，这种感觉比任何其他模型都更自主。”

　　Berman 继续道，“在 ChatGPT 里使用 5.5 Pro 的感觉更夸张。它真的会让人觉得什么问题都能解决。说实话，我甚至想不出足够难的问题来考它。而且它可以连续工作 30 分钟、60 分钟、90 分钟甚至更久。它似乎也专门针对 OpenAI 的插件做了优化，比如 Google Docs、Microsoft Word 等，可以轻松创建一份 60 页、逻辑连贯且设计良好的文档。”

　　“GPT-5.5 现在就是新的标杆。它就是前沿。除了速度之外，它已经和任何 Opus 模型一样强，甚至在很多任务上更强。”Berman 最后总结道。

　　不过，OpenAI 此前有强调 GPT-5.5 在能力提升的同时没有牺牲速度。该公司称，在真实服务场景中，GPT-5.5 的单 token 延迟与 GPT-5.4 持平，但智能水平显著提升；在完成相同 Codex 任务时，GPT-5.5 使用的 token 也明显更少。

　　据悉，GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统共同设计、训练并部署。

　　OpenAI 表示，模型帮助改进了服务模型自身的基础设施。一个典型例子是负载均衡和分区启发式算法。此前，OpenAI 会将加速器上的请求拆分成固定数量的块，以平衡计算核心之间的工作负载。但静态分块并不适合所有流量形态。OpenAI 称，Codex 分析了数周的生产流量模式，并编写自定义启发式算法优化分区和负载均衡，使 token 生成速度提升超过 20%。

　　“恰好”，Sam Altman 在推特上分享了他与黄仁勋发的邮件往来。黄仁勋在给 Altman 的邮件中写道（此前，Altman 发邮件称“由 GPT-5.5 驱动的 OpenAI Codex 已经发布，并且现在每一位 NVIDIA 员工都可以使用！”）：

我刚刚把这封邮件发给了 NVIDIA 员工。

非常兴奋，我们所有人都将使用 Codex 来加速工作，并完成以前不可能完成的事情。请代我向你的团队表示祝贺，他们再次向世界展示了前沿所在。

也请再次感谢他们发明了 GPT，它给了我们一个跳板，让我们能够推理、规划、使用工具，并走向更远的地方。

开动那些 Blackwell 吧。我们需要更多 token！

　　但无论如何，从社区反馈看，GPT-5.5 的认可度非常高

　　类微软的商业模式？

　　当前，GPT-5.5、GPT-5.5 Pro、GPT-5.5 Thinking 面向付费用户开放：

　　GPT-5.5 面向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用户推出；GPT-5.5 Pro 面向 ChatGPT 的 Pro、Business、Enterprise 用户开放；GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户。

　　在 Codex 中，GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放，上下文窗口为 400K。GPT-5.5 也提供 Fast 模式，生成 token 速度提升 1.5 倍，但成本为 2.5 倍。

　　API 版本尚未同步上线，但应该很快。OpenAI 表示 GPT-5.5 很快将在 Responses API 和 Chat Completions API 中开放，定价为 5 美元 / 百万输入 token、30 美元/百万输出 token ，上下文窗口为 100 万。Batch 和 Flex 价格为标准 API 价格的一半，Priority 处理为标准价格的 2.5 倍。Pro 版本的定价为 30 美元 / 百万输入 token；180 美元/百万输出 token。

　　OpenAI 承认，GPT-5.5 的价格高于 GPT-5.4，但强调其更智能且更节省 token。在 Codex 场景中，公司称 GPT-5.5 对多数用户来说能用更少 token 交付更好结果。

　　Aakash Gupta 则分析认为，OpenAI 找到了自己的商业模式，而且看起来很像那个让微软成为 3 万亿美元公司的模式。他解释道：

如果你认真算一笔账，GPT-5.5 的定价其实已经说明了一切。

GPT-5 在 8 月发布时，价格是 0.63 美元 / 百万输入 token。GPT-5.4 在 3 月推出时，涨到了 2.50 美元 / 百万输入 token。仅仅七周后，GPT-5.5 的价格来到 5.00 美元 / 百万输入 token。也就是说，8 个月里，输入价格涨了 8 倍，而每一代模型的提升更多是渐进式的。

Nvidia 表示，其最新芯片可以将每 token 推理成本最高降低约 97%。OpenAI 的成本基础正在快速下探，但价格却在上涨。这里发生的利润率扩张，在企业软件历史上几乎前所未见。

9 亿周活用户，5000 万订阅用户，900 万付费企业客户。仅按每月 20 美元计算，订阅用户本身就能带来约 120 亿美元年化收入。而 API 涨价瞄准的，则是在 OpenAI 基础设施之上构建 Agent 的开发者。每一家为 GPT-5.5 推理支付 2 倍成本的 AI 初创公司，实际上都在为 OpenAI 自己的竞争产品提供资金。

Brockman 把不能明说的话说出来了：他们正在打造一个把 ChatGPT、Codex 和浏览器整合到同一平台里的“超级 App”。每一个基于 GPT-5.5 构建 Agent 的开发者，都是在付钱给 OpenAI，让它打造那个最终可能取代自己的东西。

7 周一次的发布节奏，会以竞争对手难以追上的速度不断叠加切换成本。只要发布得足够快，让客户不断围绕你的格式重建提示词和工作流管线，之后每一轮再涨价，因为他们已经很难离开。

　　下面，我们具体看下官方给出的模型测评情况。

　　四大能力提升

　　编程能力继续强化

　　在 OpenAI 公布的评测中，GPT-5.5 在智能体式编码方面取得明显提升。

　　在 Terminal-Bench 2.0 上，GPT-5.5 得分为 82.7%，高于 GPT-5.4 的 75.1%，也高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。该评测主要考察模型在复杂命令行工作流中的规划、迭代和工具协作能力。

　　在 SWE-Bench Pro 上，GPT-5.5 得分为 58.6%，略高于 GPT-5.4 的 57.7%，但低于 Claude Opus 4.7 的 64.3%。OpenAI 同时指出，已有实验室认为该评测存在记忆化风险。

　　在 OpenAI 内部的 Expert-SWE 评测中，GPT-5.5 得分为 73.1%，高于 GPT-5.4 的 68.5%。该评测面向更长周期的前沿编码任务，任务预估人类完成时间中位数为 20 小时。

　　OpenAI 称，GPT-5.5 在 Codex 中尤其适合承担实现、重构、调试、测试和验证等真实工程任务。早期测试显示，它更擅长在大型系统中保持上下文，推理模糊故障，用工具检查假设，并将变更贯穿到周边代码库中。

　　多位早期测试者也为 GPT-5.5 的编码能力背书。Every 创始人兼 CEO Dan Shipper 称其为“第一个真正具备严肃概念清晰度的编码模型”。Cursor 联合创始人兼 CEO Michael Truell 表示，GPT-5.5 比 GPT-5.4 “明显更聪明、更持久”，工具使用更可靠，能够在复杂长任务中更长时间保持推进。

　　知识工作

　　除了编码，OpenAI 将 GPT-5.5 的另一个重点放在知识工作上。公司称，GPT-5.5 能更自然地完成寻找信息、理解重点、使用工具、检查输出、生成成果这一完整工作闭环。

　　在 Codex 中，GPT-5.5 相比 GPT-5.4 更擅长生成文档、电子表格和幻灯片。OpenAI 表示，Alpha 测试用户认为它在运营研究、表格建模、将混乱商业输入转化为计划等任务上超过此前模型。结合 Codex 的电脑使用能力后，GPT-5.5 可以看到屏幕内容、点击、输入、导航界面，并在工具之间切换。

　　OpenAI 还披露了内部使用情况：目前公司超过 85% 的员工每周都在使用 Codex，覆盖软件工程、财务、传播、市场、数据科学和产品管理等部门。

　　比如财务团队用 Codex 审查了 24,771 份 K-1 税务表格，总计 71,637 页，并通过排除个人信息的工作流，比上一年提前两周完成任务。Go-to-Market 团队中，也有员工用其自动生成每周业务报告，每周节省 5 到 10 小时。

　　在专业工作评测中，GPT-5.5 在 GDPval 上得分 84.9%，高于 GPT-5.4 的 83.0%、Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。在 OSWorld-Verified 上，GPT-5.5 得分为 78.7%，略高于 GPT-5.4 的 75.0%，也略高于 Claude Opus 4.7 的 78.0%。在 Tau2-bench Telecom 上，GPT-5.5 在没有提示词调优的情况下达到 98.0%。

　　科学研究

　　OpenAI 还将 GPT-5.5 描述为科研工作流中的重要进展。公司认为，科学研究不只是回答难题，还包括探索想法、收集证据、测试假设、解释结果，并决定下一步实验方向，而 GPT-5.5 在这一循环中的持续推进能力更强。

　　在 GeneBench 上，GPT-5.5 得分 25.0%，高于 GPT-5.4 的 19.0%；GPT-5.5 Pro 得分 33.2%，高于 GPT-5.4 Pro 的 25.6%。GeneBench 聚焦遗传学和定量生物学中的多阶段科学数据分析，要求模型处理不完整、有噪声甚至存在隐藏混杂因素的数据。

　　在 BixBench 上，GPT-5.5 得分为 80.5%，高于 GPT-5.4 的 74.0%。OpenAI 称，这表明 GPT-5.5 已经能够在生物信息学和数据分析任务中提供有意义帮助，成为科研人员的“共同科学家”。

　　OpenAI 还提到，一个搭配自定义 harness 的 GPT-5.5 内部版本，帮助发现了关于 Ramsey 数的新证明，并最终在 Lean 中得到验证。OpenAI 将其视为 GPT-5.5 不只生成代码或解释，而是能够贡献数学论证的案例。

　　早期测试者中，Jackson Laboratory for Genomic Medicine 的免疫学教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集，并生成详细研究报告。他表示，这项工作原本可能需要团队花费数月时间。

　　基因检测

　　网络安全能力增强，安全等级被列为 High

　　在安全方面，OpenAI 表示，GPT-5.5 配套了公司迄今最强的一组安全防护措施。发布前，模型经过完整的安全和治理流程，包括准备度评估、领域专项测试、针对高级生物与网络安全能力的新评估，以及外部专家测试。

　　OpenAI 将 GPT-5.5 的生物/化学能力和网络安全能力在 Preparedness Framework 下评为 High。公司强调，GPT-5.5 尚未达到 Critical 网络安全能力等级，但评测显示其网络安全能力相比 GPT-5.4 有明显提升。

　　在 CyberGym 上，GPT-5.5 得分为 81.8%，高于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。在内部 CTF 挑战任务中，GPT-5.5 得分为 88.1%，高于 GPT-5.4 的 83.7%。

　　OpenAI 表示，将对 GPT-5.5 部署更严格的潜在网络风险分类器，部分用户初期可能会感觉拒答更多或更“烦人”，但公司会持续调优。同时，OpenAI 也将通过 Trusted Access for Cyber 为经过验证的防御者提供更少限制的访问权限，首先从 Codex 开始，支持合法网络防御工作。

　　参考链接：

　　https://openai.com/index/introducing-gpt-5-5/

GPT-5.5赢了Opus 4.7和Mythos？奥特曼晒黄仁勋内部信：英伟达全员用上 Codex！

赢了 Opus 4.7 和 Mythos？

类微软的商业模式？

四大能力提升

编程能力继续强化

知识工作

科学研究

网络安全能力增强，安全等级被列为 High

我们的产品

相关链接

关于我们

联系我们