OpenAI突发GPT-5.4!首次原生操控电脑,AI真的开始替你干活了

  出品 | 网易智能

  作者 | 小小

  编辑 | 王凤枝

  OpenAI 又毫无征兆地发布了新模型。

  距离 GPT-5.3 Instant 上线仅仅过去两天,GPT-5.4 便被正式推出。它在 API 层面首次获得了原生电脑操作能力,让 AI 能够像人类一样自主控制键鼠,跨越各类应用软件执行具体任务。

  不仅如此,ChatGPT 也正式与 Excel 和 Google Sheets 等生产力工具实现了深度绑定。你可以在电子表格中直接调用它,将数据更新和财务分析全盘交由它来处理。

  对于每天周旋于表格与文档之间的职场人来说,这个模型的现实意义极其明确:AI 不再仅仅是个聊天工具,它已经正式下场替你干活了。

  虽然有早期测试者吐槽它的前端交互体验依然略逊于核心竞品,但在这种极具统治力的自动化执行力面前,这点 UI 层面的短板已经显得无足轻重。

  01 两个版本,覆盖不同需求

  GPT-5.4 这次分两个版本上线。

  

  GPT-5.4 Thinking 面向付费订阅用户,ChatGPT Plus (20 美元/月)、Team 和 Pro 用户现在就能用。它会在回答问题前先展示思考计划,用户可以中途打断、调整方向,不用从头再来。对于复杂问题,它能思考更长时间,同时保持上下文理解不跑偏。

  GPT-5.4 Pro 则留给需求更硬的用户,包括 ChatGPT Pro (200 美元/月)和 Enterprise 企业版。OpenAI 的说法是,这是为最复杂任务准备的,追求性能上限。免费用户也有机会体验它,但只有系统觉得必要时才会自动路由过去。

  在 API 端,GPT-5.4 支持 100 万 token 上下文窗口,是 OpenAI 目前给到的最大容量。整本代码库、整份长合同可以一次性扔进去。

  但有个细节要注意:输入一旦超过 27.2 万 token,超出的部分按两倍费率计费。

  02 原生电脑操控,AI 开始像人一样用电脑

  这次最核心的升级,是 GPT-5.4 在 API 和 Codex 里第一次内置了原生电脑操作能力。

  以前 AI 只能生成文本、代码让你自己拿去用。现在它可以自己调用 Playwright 这类库写代码操控电脑,也可以直接看屏幕截图,发出鼠标和键盘指令。开发者还能配置自定义确认策略,针对不同风险场景调整它的行为。

  OpenAI 表示,这是他们首个具备这种能力的通用模型,对于开发智能体的开发者来说,这是目前可用的最佳选择。

  几个基准测试最能说明问题:

  在测试桌面导航能力的 OSWorld-Verified 上,GPT-5.4 的成功率达到 75.0%,不仅远超 GPT-5.2 的 47.3%,还超过了 72.4% 的人类基准水平。这个测试衡量的是模型通过屏幕截图加键盘鼠标操作在桌面环境里导航的能力。

  

  在浏览器操控测试 WebArena-Verified 上,同时用 DOM 和截图驱动交互时,它做到了 67.3% 的成功率,GPT-5.2 是 65.4%。而在 Online-Mind2Web 上,只靠截图观察,它的成功率达到了 92.8%,远高于 ChatGPT Atlas 智能体模式的 70.9%。

  计算机使用能力的提升,跟视觉感知能力的改进分不开。在测试模型视觉理解和推理的 MMMU-Pro 上,GPT-5.4 在不使用工具的情况下达到 81.2% 的成功率,高于 GPT-5.2 的 79.5%。在文档解析测试 OmniDocBench 上,GPT-5.4 的平均误差是 0.109,优于 GPT-5.2 的 0.140,而且这是在没开推理努力的情况下跑出来的,反映的是低成本、低延迟状态下的性能。

  

  高分辨率图像的理解也有升级。从 GPT-5.4 开始,OpenAI 引入了一个原始图像输入细节级别,支持最高 1024 万总像素或 6000 像素最大维度的全保真感知。高细节级别现在也支持到 256 万总像素或 2048 像素最大维度。早期测试里,使用原始或高细节时,定位能力、图像理解、点击准确性都有明显提升。

  在 GDPval 这个测试覆盖 44 个职业的知识工作任务中,GPT-5.4 在 83.0% 的比较里达到或超过行业专业人士水平,其中 69.2% 是胜出,13.8% 是打平。GPT-5.2 是 70.9%(49.8% 胜,21.1% 平)。GPT-5.4 Pro 的胜率为 82.0%,GPT-5.2 Pro 是 74.1%。测试里包含的行业覆盖了美国 GDP 贡献前 9 大行业。

  在 SWE-Bench Pro 编码测试里,GPT-5.4 得分 57.7%,GPT-5.3 Codex 是 56.8%,GPT-5.2 是 55.6%。更重要的是延迟表现:在达到相似或更高准确率的情况下,GPT-5.4 的估计延迟在 500 至 800 秒左右,而 GPT-5.3 Codex 是 1800 秒以上。延迟估计考虑了工具调用时间、采样 token 和输入 token。

  

  OpenAI 拿用户之前标记过事实错误的去标识化提示词跑了一遍。GPT-5.4 的单项陈述错误率比 GPT-5.2 低了 33%,完整回应里出现任意错误的概率低了 18%。OpenAI 说这是他们迄今最具事实准确性的模型。

  GitHub 首席产品官马里奥·罗德里格斯(Mario Rodriguez)的评价是,GPT-5.4 在逻辑推理和执行复杂多步骤工具依赖工作流方面表现突出,是企业第一天就该采用的模型。

  房地产科技公司 Mainstay 的 CEO 多德·弗雷泽(Dod Fraser)透露,在覆盖约 3 万个房产税门户的测试中,GPT-5.4 首次尝试成功率 95%,三次内成功率 100%,而之前的计算机操控模型只有 73% 到 79%。GPT-5.4 的完成速度快了大概 3 倍,token 消耗少了约 70%。

  

  AI 招聘与专家训练平台 Mercor 的联合创始人兼 CEO 布伦丹·富迪(Brendan Foody)也给了评价,APEX-Agents 最新测试显示,GPT-5.4 平均得分首次突破 50%,三个月飙升 15.7%。而一年前,顶尖模型连 Excel 都改不好,得分不足5%。AI 能力正以超预期速度逼近顶级专业机构水平。

  

  OpenClaw 创始人彼得·斯坦伯格(Peter Steinberger)的看法更偏务实,GPT-5.4 在延续编码优势的基础上,实现了全方位的均衡提升,文档编写更专业,通用代理能力更强,整体体验也更友好。

  Cursor 的开发者教育副总裁李·罗宾逊(Lee Robinson)说,GPT-5.4 在他们内部基准测试里处于领先地位。“我们的工程师发现它比以前模型更自然、更果断。它会处理模糊的问题而不自我怀疑,会主动并行化工作保持进展。”

  03 工具搜索,把 token 尽量省下来

  在工具调用方面,以前有个痛点:模型每次请求都得把所有工具定义塞进提示词里。如果系统里工具多,一次请求可能多花几千甚至几万 token,成本高、速度慢、还把上下文塞得满满的。

  GPT-5.4 在 API 里引入了工具搜索(Tool Search)机制,彻底改变了这套玩法。

  现在模型只接收一个轻量级的工具列表,配一个搜索功能。真需要使用时,它再去检索完整定义,按需拉取。这对那些可能包含几万 token 工具定义的 MCP 服务器来说,效率提升很明显。

  OpenAI 给出的数据显示,在 Scale 的 MCP Atlas 基准测试里跑了 250 个任务,启用全部 36 个 MCP 服务器。工具搜索模式跟把所有 MCP 功能直接暴露在上下文里的模式相比,准确率一样,但总 token 用量少了 47%。

  具体数字是这样的:不用工具搜索的情况下,平均总 token 消耗为 123139,用了之后降到 65320。

  工具调用的准确率和效率也有提升。在 Toolathlon 测试里,它测的是 AI 智能体用真实世界工具和 API 完成多步骤任务的能力,比如读邮件、提取附件、上传、评分、记到表格里等,GPT-5.4 用更少的工具让步(Tool Yields)达到了更高的准确率。

  

  所谓工具让步,是指当 AI 在等待工具响应时会让出控制权,这叫一次让步。如果并行调用 3 个工具,再并行调用 3 个,让步次数是2。它比工具调用次数更能反映延迟,因为体现了并行化的好处。在 Toolathlon 上,GPT-5.4 在约 10 次让步时准确率 55% 左右,GPT-5.2 只有 46% 左右。

  对于延迟敏感、不想开推理的场景,GPT-5.4 也有提升。在τ²-bench 电信测试里,模型要用工具完成客户服务任务,不开推理的情况下,GPT-5.4 准确率 64.3%,GPT-5.2 是 57.2%,GPT-5.1 是 45.2%,GPT-4.1 是 43.6%。

  

  自动化软件服务公司 Zapier 的 CEO 韦德·福斯特(Wade Foster)说,GPT-5.4 在他们跨几百个真实工作流的工具使用基准测试里表现很好。“GPT-5.4 xhigh 是多步骤工具使用的新标杆,它完成了之前模型放弃的任务,是迄今为止最持久的模型。”

  04 Excel 深度集成,金融场景先落地

  跟 GPT-5.4 同步上线的,还有一套面向企业和金融机构的 OpenAI 金融服务套件。

  核心产品是 ChatGPT for Excel 和 Google Sheets 测试版。ChatGPT 直接嵌进电子表格的单元格里,你可以让它帮你搭财务模型、做分析、更新数据。OpenAI 表示,这是用团队已经依赖的公式和结构来工作。

  套件还整合了 FactSet、MSCI、Third Bridge、Moody's这些数据源,推出一套可复用的 Skills 功能,覆盖盈利预览、可比公司分析、DCF 估值分析、投资备忘录撰写这些高频场景。

  OpenAI 特别专注于改进 GPT-5.4 创建和编辑电子表格、演示文稿和文档的能力。

  OpenAI 自己有个内部投行基准测试。GPT-5 Thinking 在这个测试里的得分是 43.7%,而 GPT-5.4 Thinking 直接干到了 88.0%。

  在另一个模拟初级投行分析师电子表格建模任务的测试里,GPT-5.4 平均得分 87.3%,GPT-5.2 是 68.4%。

  

  投资公司 Walleye Capital 的 AI 解决方案主管丹尼尔·斯威基(Daniel Swiecki)称,在他们内部的财务和 Excel 评估里,GPT-5.4 准确率提高了 30 个百分点。他把这归因于模型更新和情景分析的扩展自动化。

  法律 AI 平台 Harvey 的应用研究主管尼科·格鲁彭(Niko Grupen)也评论道:GPT-5.4 在他们 BigLaw Bench 评估里得分 91%,“在结构化复杂交易分析、跨长篇合同保持准确性、提供法律从业者需要的高细节方面,目前比别的模型都好”。

  05 网络搜索能力大幅提升

  GPT-5.4 在智能体网络搜索方面也做了改进。

  在 BrowseComp 测试里,衡量 AI 智能体能多持久地浏览网络,找到那些难找的信息时,GPT-5.4 比 GPT-5.2 提升了 17 个百分点,GPT-5.4 Pro 以 89.3% 的成绩创下该基准测试的新高。

  

  OpenAI 解释说,在 BrowseComp 里他们用了搜索阻止列表,排除了包含基准答案的网站,防止污染。GPT-5.4 测试时间比 GPT-5.2 晚,分数变化反映了模型、搜索系统和互联网状态的变化。GPT-5.4 用的是更长、更新的阻止列表。

  落实到实际体验上,这意味着 GPT-5.4 Thinking 在回答那些需要从网上多个来源汇集信息的问题时更靠谱。它能更持久地跨多轮搜索,找到最相关的来源,特别是对那些大海捞针式的问题,然后把它们综合成清晰的答案。

  06 可引导性,能中途打断调整方向

  ChatGPT 里的 GPT-5.4 Thinking 多了个新功能:对于较长、较复杂的查询,它会先给一个工作概要,你可以看到它打算怎么干。

  更重要的是,你可以在它响应过程中添加指令或调整方向,不用从头开始,也不用多轮对话。OpenAI 说这能让模型输出更贴近你想要的结果。

  这个功能现在在网页版和 Android 应用上能用,iOS 即将上线。

  模型在困难任务上也能思考更长时间,同时对对话早期步骤保持更强的意识。这意味着它能处理更长的工作流和更复杂的提示,同时保持答案的连贯性和相关性。

  07 反馈与体验:早期用户的真实感受

  AI 写作助手公司 HyperWrite 的 CEO 马特·舒默(Matt Shumer)提前试了 GPT-5.4 一周。他提到了一个有意思的细节:自己以前一直是 Pro 系列的重度用户,因为 Pro 几乎能完美应对所有任务。但这次,GPT-5.4 标准版打破了这个习惯。

  

  “即使在标准模式下,GPT-5.4 也比之前的 Pro 版好,不可思议。”他说编码能力强得离谱,在 Codex 里可靠性惊人。“编码问题基本上解决了。”Pro 版近乎完美,能解决其他模型解决不了的问题,但对日常使用来说性能有点过剩。

  他也提到几个问题:前端界面体验不如 Claude Opus 4.6 和 Gemini 3.1 Pro;会忽略一些显而易见的现实背景,比如规划旅行行程时选了春假期间人挤人的地点;在 OpenClaw 里测试时,程序经常在任务完成前突然停住。

  但他最后给的结论是:整体上领先太多,那些吹毛求疵的小问题都显得无关紧要了。

  世界顶尖免疫学专家德里亚·乌努特马兹(Derya Unutmaz)也试了 Pro 版,用了几天。“它展现出了相对更高的创造力、洞察力和抽象智能,比 5.2 Pro 模型更频繁地提出问题。”他在 AGI-2 测试里给 GPT-5.4 Pro 打了 83% 的得分。

  

  08 定价:比以前贵,但值得

  API 定价上,GPT-5.4 比 GPT-5.2 贵了一些。

  GPT-5.4 标准版每百万输入 token 为 2.5 美元、输出 15 美元;Pro 版输入 30 美元、输出 180 美元。与之相比,GPT-5.2 是输入 1.75 美元、输出 14 美元;GPT-5.2 Pro 是输入 21 美元、输出 168 美元。

  

  其中,输入超过 27.2 万 token 的部分,按两倍费率算。Codex 里默认压缩上限就是 27.2 万 token,开发者可以手动往上调,超出部分才触发高计费。

  OpenAI 发言人对此给出了三条理由:一是复杂任务能力更强,包括编码、电脑操控、深度研究、高级文档生成、工具调用;二是研究路线图上有重大技术进步;三是更高效的推理机制在相同任务上消耗更少推理 token,能抵消一部分单价上涨。发言人说,即便提价,GPT-5.4 的定价还是低于同等能力的竞品前沿模型。

  在 ChatGPT 端,GPT-5.4 Thinking 从 3 月 5 日起向 Plus、Team 及 Pro 用户开放,取代此前的 GPT-5.2 Thinking。GPT-5.2 Thinking 将在三个月后于 2026 年 6 月 5 日正式退役,期间可以在模型选择器的传统模型里找到。

  GPT-5.4 Pro 只对 Pro 和 Enterprise 计划用户开放,企业和教育版用户可通过管理员设置提前开启访问权限。

  在安全方面,OpenAI 把 GPT-5.4 定位为高网络能力模型,沿用了 GPT-5.3 Codex 的类似保护措施,包括监控系统、受信任访问控制,对零数据保留(ZDR)表面的高风险请求做异步阻断。

  他们也在持续研究思维链(CoT)的可监控性。新开源的评估叫 CoT 可控性,测的是模型能不能故意混淆推理来逃避监控。结论是 GPT-5.4 Thinking 控制 CoT 的能力较低,这对安全来说是好事,说明 CoT 监控仍然有效。

  写在最后

  当你再次打开 ChatGPT 时,你面对的已经不再是一个仅仅擅长咬文嚼字的聊天机器人。

  回看这两年的轨迹:从陪人聊天的对话框,到辅助敲代码的副手,再到今天直接接管鼠标键盘、接手复杂表格的数字员工。这次的 GPT-5.4 或许没有创造出全新的理论基座,但它把纸面上的潜能彻底变成了桌上的生产力。

  技术革命往往不是伴随着巨响到来的,而是潜移默化地渗透进每一次版本更新里。等到我们真正察觉时,那个曾经只会回答问题的 AI,其实已经悄无声息地坐上了你的工位。