凌晨突发!GPT-5.5正式上线:跑分更猛,价格翻倍,但这点不得不防

  出品 | 网易智能

  作者 | 小小

  编辑 | 王凤枝

  GPT-5.5 来了,大模型越来越像智能体了。

  今天凌晨 OpenAI 意外发布 GPT-5.5。最核心的变化不是答案写得更漂亮,而是它更像一个能自己接活的系统:理解复杂目标,自己拆步骤、调工具、核结果,把一件多环节的任务从头推到尾。OpenAI 这次想卖的,不只是更聪明,而是真能干活。

  能力上去了,价格也跟着上去了。官方 API 定价 GPT-5.5 输入每百万 token 5 美元、输出 30 美元,对比 GPT-5.4 的 2.5 美元和 15 美元正好翻了一倍。不过 OpenAI 也说了,GPT-5.5 在不少复杂任务里能用更少的 token 把事情办完。

  目前 GPT-5.5 已经开始向 ChatGPT 和 Codex 滚动上线。ChatGPT 里 GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户,GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用户。API 版本官方说很快跟上。

  01 一份让对手沉默的跑分单:终端操作和数学推理甩开身位

  先看数据。GPT-5.5 在一系列硬核基准测试中,把上一代 GPT-5.4 甩在了身后,也压过了竞争对手一头。

  

  在最能体现智能体规划和工具协调能力的 Terminal-Bench 2.0 测试中,GPT-5.5 达到了 82.7% 的准确率,大幅领先 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。

  在评估跨 44 种职业知识工作能力的 GDPval 测试中,GPT-5.5 取得了 84.9% 的胜率或平局率,Claude Opus 4.7 为 80.3%,Gemini 3.1 Pro 只有 67.3%。在衡量模型自主操作真实计算机环境的 OSWorld-Verified 上,GPT-5.5 得分 78.7%,与 Claude Opus 4.7 的 78% 旗鼓相当。

  数学能力方面 GPT-5.5 在 FrontierMath 上的表现尤其突出。1 至 3 级题目得分 51.7%,Claude Opus 4.7 为 43.8%,Gemini 3.1 Pro 为 36.9%。到了最难的 4 级,GPT-5.5 的 35.4% 远远超过 Claude Opus 4.7 的 22.9%。

  网络安全方面,CyberGym 测试中 GPT-5.5 得分 81.8%,Claude Opus 4.7 为 73.1%。在客户服务场景的 Tau2-bench Telecom 测试中,GPT-5.5 无需任何提示调整就达到了 98.0% 的准确率。

  OpenAI 内部还有一个叫 Expert-SWE 的基准,用来评估长周期编码任务并预估人类专家中位完成时间为 20 小时。GPT-5.5 在这里达到了 73.1%,上一代 GPT-5.4 是 68.5%。在公开的 SWE-bench Pro 上,GPT-5.5 的 58.6% 则与 Claude Opus 4.7 的 64.3% 互有胜负。

  第三方评测机构 Artificial Analysis 做了全面测试。他们的结论是 GPT-5.5 让 OpenAI 重新回到了 AI 领域的绝对第一,在他们设定的智能指数中领先 3 分,打破了此前与 Anthropic 和谷歌三方平局的格局。五大核心评估中,GPT-5.5 在 Terminal-Bench Hard、GDPval-AA 和 APEX-Agents-AA 中均居榜首。

  

  科学研究领域同样没落下。在专注于遗传学和定量生物学的 GeneBench 上 GPT-5.5 得分约 25%,GPT-5.4 约为 19%。在生物信息学基准 BixBench 上,GPT-5.5 以 80.5% 领先于 GPT-5.4 的 74.0%。

  这些数字拼在一起,画出了一个轮廓,即 GPT-5.5 在需要规划和持续执行的智能体任务上优势明显,在数学和网络安全等需要深度推理的领域也拉开了距离,但在一些无工具的纯学术推理上仍有来有回。OpenAI 研究副总裁阿米莉亚·格莱斯(Amelia Glaese)说,无论是在基准测试上,还是根据可信合作伙伴的反馈以及他们自己的经验来看,这绝对是他们迄今为止最强的编码模型。

  但有一组数据不得不提前摊开。

  在 Artificial Analysis 的私有基准测试 AA-Omniscience 中,GPT-5.5 展现了一个矛盾到让人不安的特征。

  GPT-5.5 的准确率是所有模型中最高的,达到 57%,意味着它在回忆事实方面确实优于所有竞品。然而它的幻觉率高达 86%。作为对比,Claude Opus 4.7 的幻觉率是 36%,Gemini 3.1 Pro 是 50%。换句话说,GPT-5.5 知道的东西确实更多,但当它不确定答案时,它选择闭嘴的概率远低于对手。它更倾向于给出一个回答,哪怕这个回答可能是错的。

  这组数据与它明白该做什么的核心叙事形成了直接的张力。一个幻觉率 86% 的模型,意味着它在十次不确定的情况下有将近九次会选择硬答而不是承认自己不知道。这种自信地做错事的倾向,恰恰是一个被寄望于自主规划和执行任务的模型最需要警惕的特质。这意味着,GPT-5.5 确实比前辈更会干活了,但它在干活过程中不知道自己不知道什么的概率,也比几个主要竞争对手高出一大截。

  这不是一个可以轻描淡写带过的小瑕疵。如果这个模型真的被委以独立操作电脑、分析数据、生成报告的职责,那么用它的人最好时刻记住,它干活的主动性和它犯错的主动性可能来自同一种底层机制。Artificial Analysis 的测试表明,从 GPT-5.4 到 GPT-5.5 在这项基准上的 14 分涨幅主要由知识增长驱动,幻觉方面仅有适度改进。这意味着在目前的架构下,更强的能力和更高的幻觉率可能是同一枚硬币的两面。

  02 更聪明,也更省 token,同样的活儿少花四成词元

  比分数更值得注意的,是 GPT-5.5 达成这些分数的方式。它用的输出 token 数量大幅减少。简单说就是它找到答案的路径更短了。

  在 Terminal-Bench 2.0 测试中,GPT-5.5 在约 3000 至 4000 输出 token 时分数就达到了约 82%,GPT-5.4 在相近 token 数时只有约 75%。

  在 Expert-SWE 测试中差距更夸张,GPT-5.5 用了约 30000 至 35000 输出 token 就达到约 73% 的分数,GPT-5.4 花了超过 60000 token 才达到 68.5%。在 Tau2-bench Telecom 中,GPT-5.5 用约 2000 至 4000 token 达到 98% 的准确率,GPT-5.4 用了超过 10000 token 才达到约 92%。

  这种 token 效率直接影响了成本。Artificial Analysis 的计算显示,虽然 GPT-5.5 每个 token 的价格比 GPT-5.4 翻了一倍,涨到每 100 万输入 5 美元且输出 30 美元,但 token 使用量减少约 40% 几乎完全吸收了涨价的影响,运行其智能指数的净成本仅增加了约 20%。在他们的编码智能指数图里 GPT-5.5 位于右上方,以相对较少的输出 token 实现了最高的智能分数,在成本和性能之间取得了当前的最佳平衡。

  需要说明的是,这个 40% 的节省幅度是在编码和推理类基准任务上测得的。如果使用场景不同,比如长篇写作或开放式对话,token 消耗的减少幅度未必相同,实际成本增幅也会随之变化。不过在本文引用的几项具体测试中,从 Terminal-Bench 到 Expert-SWE 再到 Tau2-bench,token 数量的下降是肉眼可见的。

  

  他们还发现 GPT-5.5 的不同推理努力程度提供了灵活的选择。中等努力程度的 GPT-5.5 在智能指数上得分与 Claude Opus 4.7 的最高档位相当,但成本仅为其四分之一,约 1200 美元对 4800 美元。低努力程度则花费约 500 美元就能达到类似效果。这给了用户一个根据任务需求调节智能与成本的阶梯。

  而这一切并没有以牺牲速度为代价。按 OpenAI 的说法,GPT-5.5 在实际服务中实现了与 GPT-5.4 相当的每 token 延迟。背后是软硬件协同设计的成果。GPT-5.5 与英伟达 GB200 和 GB300 NVL72 系统共同设计、训练并部署。AI 自己也帮了忙,Codex 分析了数周的生产流量模式后,编写了自定义的启发式算法来优化 GPU 之间的负载均衡,最终将 token 生成速度提升了超过 20%。

  英伟达企业 AI 副总裁贾斯汀·博伊塔诺(Justin Boitano)评价说,GPT-5.5 提供了执行繁重工作所需的持续性能。基于英伟达 GB200 NVL72 系统构建和服务的这个模型,让团队能够从自然语言提示中交付端到端的功能,将调试时间从数天缩短到数小时,并将数周的实验转化为在复杂代码库中的一夜进展。他认为这不仅仅是更快的编码,而是一种全新的工作方式。

  03 能读懂整个代码库,不是只会补全下一行

  数据和效率说完了,来看看实际体验上到底有什么不同。

  GPT-5.5 与此前模型最核心的区别,在于它不再只是等着你一步步告诉它怎么做。用 OpenAI 总裁格雷格·布罗克曼(Greg Brockman)的话说,这个模型真正特别的地方在于它能在更少的指导下做更多的事,可以审视一个不明确的问题并自己弄清楚下一步该做什么。

  

  这与早期测试者的感受高度一致。Every 公司的创始人兼 CEO 丹·希珀(Dan Shipper)做了一个倒回时间的测试。

  他花了几天时间调试一个发布后的问题,然后让他最好的工程师之一重写了部分系统。为了测试 GPT-5.5,他把已经损坏的系统状态交给模型看它能不能产出工程师最终决定的那种重写方案。结果 GPT-5.4 做不到,GPT-5.5 做到了。他的评价是这是他遇到的第一个具有严肃概念清晰度的编码模型。

  

  MagicPath 的 CEO 彼得罗·斯基拉诺(Pietro Schirano)遇到了更复杂的场景。他让 GPT-5.5 把一个包含数百个前端和重构更改的分支合并到另一个也发生了巨大变化的主分支之中。模型在大约 20 分钟内一次性解决了所有冲突,最终完成了一个包含 12 个差异的堆栈几乎完整。他说自己的感觉是真的在与一个更高的智能一起工作,甚至有一种尊重感。

  其他提前拿到测试权限的高级工程师也报告了类似体验。他们说 GPT-5.5 在推理和自主性方面明显强于 GPT-5.4 和 Claude Opus 4.7,能提前发现问题,并在没有明确提示的情况下预测测试和审查需求。有人让模型重新架构一个协作式编辑器中的评论系统,离开一段时间后回来发现它已经搞定了一个接近完整的堆栈。还有人说几乎不需要对实现进行修正,对 GPT-5.5 的计划比 GPT-5.4 更有信心。

  Cursor 的联合创始人兼 CEO 迈克尔·特鲁尔(Michael Truell)从产品角度指出,GPT-5.5 明显比 GPT-5.4 更聪明且更持久,能持续工作更长时间而不会提前停止,这对于用户委托给 Cursor 的复杂或长期运行的任务至关重要。而一位英伟达的工程师在提前失去访问权限后说那感觉像被截肢了一样。

  

  这些反馈共同指向一个变化,即 GPT-5.5 不再是等待指令的被动工具,而是开始展现某种职业判断力。它能理解系统的全貌并弄清楚某件事为什么失败,修复该落在哪里以及代码库中还有哪些部分会受到影响。公司内部测试也印证了这一点,OpenAI 超过 85% 的员工每周都在使用 Codex。

  不过并非所有测试者都给出了毫无保留的赞誉。一位测试者在社交平台上表示,GPT-5.5 在推理效率和知识方面确实有明显提升,但对于他关心的东西他得等下一个版本。他直言不认为 GPT-5.5 比之前有太多进步而只是渐进式的改进。

  

  另一位测试者则注意到了速度上的变化。GPT-5.5 重度思考模式下 2 分钟内给出的答案,比 GPT-5.4 在 10 分钟内给出的更好,但他对智能水平的评价保持了克制。

  04 办公室里的杂活儿,它也开始接得动了

  让 GPT-5.5 擅长编程的那些能力,放到日常知识工作中同样管用。它能更自然地完成从查找信息、分析重点、操作软件到生成文档的整个闭环。

  Box 的联合创始人兼 CEO 阿隆·列维(Aaron Levie)分享了他们的内部测试结果。在金融服务、医疗保健、公共部门和媒体娱乐等多个行业的真实任务上,GPT-5.5 相比 GPT-5.4 有显著提升。金融服务从 64% 提升至 83%,医疗保健从 61% 提升至 78%,公共部门从 59% 提升至 72%,媒体与娱乐从 57% 提升至 70%。他认为 GPT-5.5 将为企业知识工作智能体带来巨大飞跃。

  在 ChatGPT 中,GPT-5.5 思考模式可以为更难的问题提供更快的帮助,擅长编码、研究、信息综合与分析以及文档密集型任务。GPT-5.5 Pro 版本则更进一步,早期测试者反映它的回答比 GPT-5.4 Pro 更全面且结构更清晰以及更准确和更有用,在商业、法律、教育和数据科学领域表现尤为突出。

  OpenAI 内部的日常使用案例更能说明问题。财务团队用 Codex 审查了 24771 份K-1 税表,总计 71637 页。工作流程排除了个人信息后,帮助团队比前一年提前两周完成任务。通信团队用它分析了六个月的演讲请求数据,构建了评分和风险框架并验证了一个自动化 Slack 智能体来处理低风险请求。一名市场营销员工自动化了每周业务报告的生成,每周省下 5 到 10 小时。

  05 科学家的新搭档,从基因数据到数学证明都能搭把手

  科学研究领域是 GPT-5.5 的另一个亮点。它的价值不在于给出一个一次性答案,而在于帮研究人员走完从问题到实验再到产出的完整过程。

  沃顿商学院教授伊森·莫利克(Ethan Mollick)提前拿到了模型,他用一个拖延了十年的真实研究项目来做终极测试。他把数百个尘封已久的关于众筹的匿名化数据文件丢给 Codex 里的 GPT-5.5,文件混合了 STATA、CSV、XLS 和 Word 格式,然后只给了四个提示要求它整理数据、提出新假设、用复杂方法检验并写成学术论文。结果模型产出的论文包含真实的文献综述和复杂的统计分析。他的评价是如果这是二年级博士项目的成果他会非常满意。

  

  杰克逊基因组医学实验室的免疫学教授德里亚·乌鲁特马兹(Derya Unutmaz)使用 GPT-5.5 Pro 分析了一个包含 62 个样本和近 28000 个基因的表达数据集。模型在几分钟内生成了详细的研究报告,并提出了关键问题和见解。他说这项工作本来需要他的团队花上数月。他还说,凭借 GPT-5.5 Pro,他感觉 AI 到了另一个拐点,就像之前某些关键版本发布时让他感受到的那种跨越门槛的感觉。

  在数学领域,一个更硬的成果来自组合学。一个内部版本的 GPT-5.5 在配备定制工具后,帮助发现了关于拉姆齐数的新证明,拉姆齐数是组合学中的核心对象。这一领域的结果很少见且技术难度高。GPT-5.5 找到了一个关于非对角拉姆齐数长期存在的渐近事实的论证,随后在 Lean 中得到了验证。这意味着它不仅在辅助研究,而是在核心研究问题上贡献了令人惊讶且有用的数学论证。

  波兰亚当·密茨凯维奇大学的数学助理教授巴托斯·纳斯克雷基(Bartosz Naskręcki)在 Codex 中使用 GPT-5.5,仅用一个提示在 11 分钟内构建了一个代数几何应用,完成了以前需要专用工具才能实现的定制数学可视化。

  Axiom Bio 的联合创始人兼 CEO 布兰登·怀特(Brandon White)则从药物发现的角度给出了判断。他让 GPT-5.5 推理庞大的生物化学数据集以预测人类药物结果,然后看到它在最难的评估中带来了显著的准确性提升。他的判断是,如果 OpenAI 继续保持这样的势头,药物发现的基础将在年底前发生改变。

  

  06 攻防能力一起涨,这把利刃也有另一面

  GPT-5.5 的网络安全能力比 GPT-5.4 又进了一步,OpenAI 将其生物和网络安全能力评估为高风险。在夺旗挑战任务中,GPT-5.5 用约 20000 至 40000 输出 token 就达到了约 88% 的得分,GPT-5.4 用了超过 100000 token 才拿到约 84%。这种效率提升意味着它发现和利用漏洞的能力变得更强。

  OpenAI 采取了一种分层应对策略。一方面部署更严格的网络风险分类器来拦截普通用户的敏感请求,他们承认一些用户初期可能会觉得这些限制烦人。另一方面推出网络可信访问计划,让经过验证的安全防御者能够申请使用不受限制的模型版本用于保护关键基础设施。OpenAI 表示他们正与政府合作伙伴一起探索高级 AI 如何帮助保卫纳税人数据、电网和供水系统。

  GPT-5.5 在发布前经历了完整的安全和治理流程,包括准备评估、特定领域测试,以及与内部和外部红队、近 200 个可信早期合作伙伴的合作。奥特曼强调他们相信迭代部署是安全策略的重要组成部分,通过逐步向世界发布模型大家最有能力在 AI 韧性的团队运动中共同应对挑战。

  VentureBeat 的报道指出,在人类最后的考试这类无工具纯推理基准上,GPT-5.5 Pro 的 43.1% 仍落后于 Anthropic 未公开的 Claude Mythos Preview 的 56.8%。这说明在不同的能力维度上,各家模型的优势仍在分化。

  07 八个月涨价八倍,但总账单几乎没变

  安全能力的提升也意味着更高的训练和部署成本,这直接反映在了 GPT-5.5 的定价上。

  GPT-5.5 的 API 输入价格为每 100 万 token 5 美元且输出为 30 美元,GPT-5.5 Pro 则是输入 30 美元且输出 180 美元。目前 GPT-5.5 已向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户开放,GPT-5.5 Pro 从 Pro 层级起步。在 Codex 中 GPT-5.5 对从 Plus 到 Go 计划的用户均可使用,上下文窗口 40 万 token 并提供速度快 1.5 倍但成本高 2.5 倍的快速模式。

  AI 产品专家阿卡什·古普塔(Aakash Gupta)分析了这个定价轨迹。从去年 8 月 GPT-5 的 0.63 美元到今年 3 月 GPT-5.4 的 2.50 美元,再到七周后 GPT-5.5 的 5 美元,八个月内输入定价涨了八倍。而英伟达表示其最新芯片将推理成本降低了高达每 token 35 倍。

  

  古普塔认为,OpenAI 的成本基础在急剧下降,但价格却在攀升,这里发生的利润率扩张在企业软件史上前所未有。

  布罗克曼此前曾说正在构建一个整合 ChatGPT、Codex 和浏览器的超级应用。古普塔的判断是,每个在 GPT-5.5 上构建智能体的开发者,都在为 OpenAI 自己的竞争产品提供资金。他认为 OpenAI 找到的商业模式,很像那个让微软市值达到 3 万亿美元的模式。

  结语:能力参差不齐,但前沿还在快速推进

  莫利克教授还设计了一个横向对比测试。他让从一年前发布的 o3 到最新的 GPT-5.5 Pro 等多个模型去构建同一个程序化生成的 3D 模拟,展示一个港口城镇从公元前 3000 年到公元 3000 年的演变。只有 GPT-5.5 Pro 真正模拟了一个不断演变的小镇,而不仅仅是生成新建筑替换旧的。而且它只用了 20 分钟,GPT-5.4 Pro 花了 33 分钟。

  但他也发现了问题。当要求模型创建一个全新的角色扮演游戏规则并配图排版时,产出在技术上很精巧且 101 页的 PDF 排版专业,规则也似乎合理。然而仔细读内容,AI 在长篇虚构创作上的老毛病还在。它喜欢用神秘元素、过于复杂但未能完全兑现的想法、奇怪的隐喻、过多的华丽句子,以及所有角色相似的语气。他的结论是,即便在所有惊人的技术进步之中,那个参差不齐的前沿仍然存在,只是它比以前远得多了。

  OpenAI 首席科学家雅库布·帕乔基(Jakub Pachocki)在发布之际透露,他们实际上还有空间来训练比这聪明得多的模型。换句话说,GPT-5.5 不是终点。

  就在今天,这个模型已经上线。对于那些需要处理复杂编码任务、繁琐知识工作或推进科学研究的用户来说,GPT-5.5 提供的不只是一个更快的回答工具,而是一个能理解意图、接管流程、持续推动任务往前走的系统。而对于开发者来说,还得再等一等 API 的正式开放。在人类将越来越复杂的工作交给 AI 的这条路上,GPT-5.5 是一个值得关注的路标。