国思软件 - GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价

　　听雨发自凹非寺量子位 | 公众号 QbitAI

　　OpenAI 上新三款实时语音模型，不仅集成了 GPT-5 级的推理能力，还重击了一拳同传行业：

　　能紧跟发言人节奏的同声传译，现在每分钟成本两毛五

　　三款模型分别是 GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper，把端到端推理语音、同声传译、流式转写三件事打包进了同一套 API。

　　效果有点炸裂。

　　OpenAI 员工 Jason Liu 对着麦克风说英语，GPT-Realtime-Translate 直接实时把它翻译成了日语。

　　整个过程流式进行，不需要等说话人说完一整句，翻译就开始跟随输出。

　　网友 Claire Vo 用 ChatPRD 结合 GPT-Realtime-2，对着麦克风说了一句话：帮我写一份产品需求文档。

　　接下来的十分钟里，她没有碰过一次键盘，仅凭语音对话，AI 就生成了一份完整的 PRD。

　　她再用语音要求改格式，AI 实时更新。全程对话驱动，没有键盘。

　　还有网友 Ben Badejo，他把 GPT-Realtime-2 和 OpenClaw 集成在一起，语音指挥 AI 操控浏览器：打开 Google，跳转到华尔街日报。

　　AI 一边执行，一边还主动汇报进度：正在打开浏览器……现在跳转中。

　　他表示，自己三月份就在琢磨如何给自己的龙虾搭建语音对讲系统，现在只需要把 OpenClaw 连接新的 OpenAI 模型就行了。

　　仅仅几分钟就完成了重大升级。

　　OpenAI 这次放出的三款模型，也是各有定位：

GPT-Realtime-2：带着 GPT-5 级推理说人话办人事；
GPT-Realtime-Translate：能把 70 多种语言实时翻译成 13 种语言输出，每分钟约 2 毛5。
GPT-Realtime-Whisper：负责边说话边出文字的低延迟转录。

　　官方表示，语音正逐渐成为人们使用软件最自然的方式之一。这三款模型一起，把语音从简单的听话回话，推向了真正「能干活的交互界面」——

　　这下，大模型真的能像人类一样，跟你边聊天边把活干了。

　　三款新模型：能听、能译、能推理

　　GPT-Realtime-2是这次的重头戏。

　　这是 OpenAI首款搭载 GPT-5 级推理的语音模型，真正把推理能力塞进了端到端的语音交互里。

　　最直接的升级是上下文窗口：从 32K 直接拉到128K，翻了 4 倍。

　　这意味着语音 Agent 可以支撑更长的对话，处理更复杂的任务流，而不会聊着聊着就忘了前面说了什么。

　　推理强度还可以 5 档调节：minimal、low、medium、high、xhigh，默认 low。

　　问个天气用 low 秒回，丢给它一个商业分析大题用 xhigh 慢慢推演。

　　但最体现 GPT-5 级推理的，是它开始学会边说话边干活了。

　　以前的语音助手，你说一句它回一句，脑子里一次只能想一件事。

　　GPT-Realtime-2 现在支持并行工具调用，可以一边嘴里说着正在查您的日程表，一边后台同时调用地图、日历、租房软件。

　　官方 demo 中，负责人 Romain Huet 对着手机上的个人助手说一句：我马上有个客户会议，能帮我看一下日程吗？

　　模型会立刻查看日历，回复说 12 分钟后有一个跟 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着更新 CRM，把今天的会议摘要和后续步骤录入系统。

　　它还学会了 Preambles，也就是前置语。后台在拉数据的时候，会先对你说「让我核实一下」，或者「稍等片刻」。

　　这个看似废话的设计，最大程度缓解了等待时的焦虑。人在思考的时候也会说「呃让我想想」，现在 AI 也学会了。

　　语气也是可控的，平静、共情、兴奋，按需切换。

　　跑分怎么样？

　　Big Bench Audio 这项评估音频推理能力的榜单上，GPT-Realtime-2（high 档）拿了 96.6%，上代是 81.4%，提升了 15.2 个点。

　　Audio MultiChallenge 测多轮对话指令跟随，xhigh 档跑出 48.5%，上代只有 34.7%，又涨了 13.8 个点。

　　定价方面，GPT-Realtime-2 按 token 计费，$32/1M 音频输入 token，$64/1M 音频输出 token，缓存输入只要$0.40。

　　和上一代 GPT-Realtime-1.5 价格持平，但能力大幅跃升。

　　在企业实测中，Zillow 拿最难的对抗性基准跑了一遍，通话成功率从 69% 直接跳到 95%，提升了 26 个百分点。

　　Zillow 的 SVP Josh Weisberg 表示：

GPT-Realtime-2 在复杂语音交互中的智能和工具调用可靠性最突出，Fair Housing 合规性也显著增强。

　　这意味着语音 Agent 不再只是接接电话，而是真的能处理高价值、高合规要求的业务场景了。

　　再来看另外两款模型。

　　GPT-Realtime-Translate，流式同声传译。

　　真的是把同声传译干到了白菜价。

　　支持 70 多种语言输入，13 种语言输出。它不是说一句翻译一句的回合制，而是说话人边说母语，系统边实时输出翻译，几乎没有停顿。

　　定价$0.034/分钟，折合人民币约 2 毛5

　　按这个价，连续翻译一小时不到 15 块，甚至比一杯奶茶还便宜。

　　对口音和方言包容度也很高。印度 AI 公司 BolnaAI 拿印地语、泰米尔语、泰卢固语这些口音浓重的语言去测，WER（词错误率）比其他模型低 12.5%，延迟能维持自然对话。

　　GPT-Realtime-Whisper，流式实时转录。

　　边说话边出文字，低延迟 speech-to-text。

　　定价$0.017/分钟，折合人民币约 1 毛钱，一小时连续转写不到 6 块钱。

　　应用场景主要在实时字幕、会议速记、客服通话记录、课堂笔记。

　　以后开会，领导刚说完前半句，屏幕上的文字已经跟上了。

　　同传更有性价比了

　　OpenAI 这三款语音模型，冲击最大的应该是同声传译行业。

　　如果算一笔账：

　　人工同声传译，英语语种一天收费 1.2 万到 2.1 万元；非英语语种，比如日语、韩语、阿拉伯语，1.8 万元起。

　　通常需要 2 到 3 名译员轮换，折算下来每小时数千至上万元。

　　这还不算设备。同传间、耳机、接收器，一套专业设备租一天也要几千。

　　所以过去能用上同传的，基本是这几种场景：国际峰会、跨国企业董事会、高端医疗会诊、法律仲裁。

　　普通开发者、中小教育机构、出海创业公司，基本和这个词无缘。

　　但现在，OpenAI 亲自下场把这件事做进了 API：

　　GPT-Realtime-Translate，定价是$0.034/分钟，折合人民币 0.25 元/分钟

　　按这个价格，连续翻译 8 小时，总成本不到 120 块，还不到人工同传两分钟的价钱，其中的差距大约是 66 倍

　　人工智能冲击传统行业……又一次具象化了。

　　不过呢，AI 同传和人工同传目前还不是完全替代关系。

　　更准确来说，OpenAI 做的是「让同传这件事不再是特权」

　　过去只有大型企业、政府机构、高端会议才用得起的服务，现在任何开发者都可以把它接进自己的产品。

　　一个出海电商客服系统，一个跨国视频会议工具，一个在线教育平台，甚至一个个人 Chrome 插件，都能拥有实时多语言翻译能力。

　　可以想见，人类同传的价值会向上迁移。文化语境、创意表达、法律精确性、医疗专业性，这些机器短期内还替代不了。

　　但基础的、高频的、标准化的翻译需求，会被 API 大规模吞掉。

　　One More Thing

　　聊了这么多，三款新模型，如何接入呢？

　　最快的方式是打开 OpenAI Playground（地址附在下方），浏览器里直接测，三款模型都可用，不需要写代码。

　　想接入自己的项目，官方提供了 Codex prompt 模板，一键把 GPT-Realtime-2 接进现有 App 或新建项目。

　　成本方面，Whisper 最便宜，一小时连续转写约 1 美元；Translate 中等，一小时约 2 美元。

　　Realtime-2 按 token 计费，实际成本取决于对话量和推理强度，和上一代价格持平。

　　感兴趣的友友们，快去体验起来吧~

　　Playground 地址：

　　https://platform.openai.com/login?next=%2Faudio%2Frealtime

　　[1]https://x.com/OpenAI/status/2052438194625593804

　　[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

　　[3]https://x.com/jxnlco/status/2052449634266812744

GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价

我们的产品

相关链接

关于我们

联系我们