OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板

  新智元报道

  编辑:KingHZ

  奥特曼称 GPT-5「比人聪明」,但 OpenAI 首席运营官 Lightcap 澄清:这不是 AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建,模型越智能,融合越要精妙。GPT-5 标志着从纯智商到反思能力的全面跃进。

  GPT-5 的能力到底有什么提升与意义?人工智能未来走向何处?这款惊艳亮相的 OpenAI 新模型,如何揭示智能的多种形态?

  OpenAI 的首席运营官 Brad Lightcap 在深度对话中揭开了这些问题的答案。

  GPT-5 为何如此特殊?

  GPT-5 实现了一个非常有趣的突破:可自主判断是否先进行深度推理再回答。

  过去用户必须通过 ChatGPT 的模型选择器,手动为不同任务挑选模型。提问后,有时你会选思考模式,有时则不会。OpenAI 认为这种体验说实话容易让人困惑。

  GPT-5 彻底简化了这个流程。它不仅自动替你决策,本质上也更聪明。在写作、编程、健康等领域,它准确性更高、响应更快,整体体验全面升级。

  大家本以为 GPT-5 的智能将爆炸式增长,为何 OpenAI 选择以可用性而非智能提升作为主要卖点?

  Brad Lightcap 解释道,这是因为智能本质上取决于模型投入的思考时间。

  分配越多的思考时长,答案质量就越高——这是基本规律。当在特定基准测试中允许模型思考时,AI 的表现远超现有所有模型。

  即便不启用思考时间,它给出的答案依然普遍优于 GPT-4.1 这类非思考型模型。

  因此,这是一次全维度的智能飞跃。但关键在于动态分配思考时间的能力——OpenAI 认为这才是提升用户体验的核心。

  这种进步很难用简单的「指数级」或「渐进式」来界定。

  现在人类已经进入需要从多维度评估智能的阶段——OpenAI 不是在回避问题,而是为了说明 GPT-5 为何如此特殊。

  在核心能力上,它的提升显而易见:SWEBench 测试得分更高,各类学术评估表现更优。OpenAI 还特别强化了 GPT-5 在健康领域的基准表现。

  但如今衡量模型优劣的标准已经变得非常多元。

  根据训练方式和问题处理机制的不同,我们可以从多个角度进行评估:

  -速度本身即质量:单位思考时间内能给出更优答案,这本身就是重要的进步指标

  -隐形能力升级:结构化思考、问题分解、工具调用等底层能力全面提升

  所有这些维度,GPT-5 都超越了前代模型。

  Scaling Law 未死

  从 GPT-1 到 GPT-2、GPT-3,再到 GPT-4 的每次跃进,能力都是全面提升的。

  那时候,「更大的模型=全面更好的模型」。而 GPT-5 似乎并非如此。所以,情况变了吗?

  Brad Lightcap 表示:「从技术角度看,情况确实变了。」

  从 GPT-2 到 GPT-3,再到 GPT-3 到 GPT-4,主要是利用了当时的 Scaling 范式。训练规模越大的模型,结果就得到更好的模型。

  这个规律依然成立,但现在有了另一类训练方式,即后训练(post-training)。用更有趣的方式使用测试时计算(test-time compute),几乎像是训练的第二阶段。

  这提供了一种推动力,让 OpenAI 能将模型推向新的智能水平,同时还能训练「智多星」。

  比如,使用工具对整体智能非常重要。GPT-2 和 GPT-3 在这方面做得不太好。GPT-4 在这方面很初级。而现在 GPT-5 内置了这些能力,结合了多步骤和更长远的推理过程。

  既然训练方式开始变化,那OpenAI 现在是否认为预训练(pre-training)的回报在递减?

  Brad Lightcap 强调他们并不认为预训练(pre-training)的回报在递减。

  Scaling Law 依然成立。从经验上看,没有理由认为预训练的回报会递减。

  而在后训练方面,大家才刚开始触及这个新范式的表面。o系列模型,即之前的推理模型,只是 OpenAI 开始探索后训练的起点。

  Brad Lightcap 认为未来一两年,主要方向是继续在后训练维度上 Scaling,继续看到显著的收益。因为这些收益太明显了。所以现在从两个轴向上改进模型:预训练和后训练。这会加速创新。

  从现在起,大多数改进会来自 Scaling,还是算法?

  Brad Lightcap 表示总是组合拳。

  算法、规模、计算力和数据,这些都缺一不可。展望未来,OpenAI 它们都超级重要,需要全方位发力。

  最难的部分当然是让它们完美融合。训练更大的模型,通常意味着你得用更多数据和计算力。这是个微妙的平衡,因为单纯放大规模,不一定总能带来同等的进步。你得把其他元素也带上。

  OpenAI 不是只按一个按钮,而是真的很用心,把所有这些拉到一起。

  GPT-5 能力过剩

  但不叫「AGI」

  在 Theo Von 的播客节目中,奥特曼说:「GPT-5 在几乎所有方面都比人聪明。」

  这听起来就像他想象中的 AGI。他似乎想叫它 AGI,但 OpenAI 又没有明确这样说。所以,为什么 GPT-5 不是 AGI?

  Brad Lightcap 解释道:「AGI 确实难以定义」。

  有个笑话说,你问五个人 AGI 是什么,会得到七种答案。

  OpenAI 看待 AGI 的方式是,AGI 是个积累过程,是个系统。你得定义这个系统是什么,你期待它能做什么。

  对 Brad 来说,至少,AGI 是一个能稳定学习新事物(哪怕超出其训练分布)的系统,这种能力源自它的推理、思考、解决问题、使用工具以及提出新想法的能力。但他不认为 GPT-5 就是 AGI:GPT-5 以及后续模型中,开始看到的是这种「通用化学习系统」的部分雏形和模块。

  而且很难确定 AGI 和非 AGI 的分界点。即便真有这个时刻,也不确定大家会在第一时间意识到。因为在和这些模型共事中,「能力储备过剩」很显著。奥特曼说的「口袋里的博士」这种智能水平,其实大家还没有真正完全利用好。

  从某种意义上说,即使现在 AI 的发展暂停十年,大家依然会有大约十年的新产品可以构建,依然会有新方法来把 GPT-5 这种水平的模型融入有趣的产品和流程中。

  一个有趣的现象是,模型越聪明,反而越要求产品设计方在如何将它融入系统方面投入更多。

  Brad Lightcap 常打个比方:

  实习生非常聪明,但他们最终做的事情有限:记会议笔记、写摘要、做基础分析。

  但如果你带来的是一位博士,他们的能力范围就很广了,只是第一天上班时可能并不立即高效。你要做的就是给他们足够的背景、信息和工具,让他们在后续发挥最大价值。而这个过程比让实习生上手所需的时间更长。

  他认为 AI 模型也类似,这是一个持续的过程,并不会是线性的。

  这引出个超级有趣的问题:从现在起,继续让模型更聪明有意义吗?还是该建哪些辅助能力?那么对于 OpenAI 来说,接下来的目标是继续增强智能,还是专注于那些「非智力」能力?

  Brad Lightcap 表示全都要。

  一部分就是纯 IQ:对事物运作的知识信息回忆的能力。

  但还有推理能力:

  怎么用其他工具解决问题;

  反思能力:回顾自己的思路链,当你觉得走错路、没想对策略时,及时修正。

  在这些问题上,GPT-5 比之前系统好。

  对 OpenAI 来说,现实世界基准作为智能标志,越来越重要,比学术基准更关键。

  而「持续学习」(continual learning)这绝对是 OpenAI 优先事项之一。

  首次用上推理 AI

  震撼免费用户

  沃顿商学院的 Ethan Mollick 提前测试了 GPT-5,他提出了一个有趣的观点:

  如果你一直在关注这条发展曲线,那么 GPT-5 的进步可以说是一个巨大的飞跃,但也是一个出乎意料的飞跃。

  他还提到:「这些模型在数学奥林匹克竞赛中获得了金牌。我越来越难以理解这些巨大的进步到底意味着什么。」

  现在的所有模型都在快速改进。那么问题来了,如果你有一个大学水平生物学的模型,然后它达到了研究生水平的生物学,普通聊天机器人的用户可能不会感受到这种变化,尽管它变得更聪明了。

  有人说,对于 ChatGPT 重度用户来说,这次提升会被感知到,但可能是比较细微的提升。

  但对于普通用户,尤其是免费用户来说,这将是一种巨大的飞跃。大多数免费用户从未体验过推理模型的威力。他们大多用的是 GPT-4.0,而且主要是进行类似搜索的简短、回合式对话,这种方式并不能体现模型的全部能力。

  所以,对很多人来说,这将是他们第一次使用具备推理能力的模型。而且不仅如此,这也是他们第一次体验到「自我反思」的模型:根据问题的难度,GPT-5 模型会自行决定花多少时间思考、给出多高质量的答案。

  这其实是一件好事——如果一直紧追最强 AI,那么你会感到目眩神迷,但进步也会显得更连续。而如果你一直用的是一两年前的最佳模型,那么这次的跃迁会让你非常震撼。

  每个人的切入点都不一样,这也是有趣之处——它对每个人来说都是很个人化的体验。

  GPT-5 特别关注了健康领域,因为这是用户使用 AI 最常见的起点之一,尤其是有健康问题时。这是 OpenAI 的重要目标。

  两大落地场景

  健康与企业

  Brad Lightcap 认为 AI 不会取代医生:

  人们依然需要与全科医生或专科医生合作进行治疗。

  但有一个可以陪伴左右、在整个过程中提供指导的工具,对很多人来说是很有安慰感的,并且在很多情况下确实能发挥作用。

  OpenAI 推动模型在健康领域的能力提升,一直是他们重点关注的方向。

  从 GPT-5 开始,未来的模型,准确率持续上升,幻觉率持续下降。

  具体来说,GPT-5 的准确率大约是前代模型的 4 到 5 倍(取决于测量方式)

  在很多方面,还没有看到企业界人工智能的「ChatGPT 时刻」。

  相对于消费者,AI 对企业是另一类难度。

  企业流程复杂,多用户依赖很常见,必须处理大量的上下文,必须使用许多工具。这些工具必须以某种方式、在某些限制下依次使用。当它们不起作用时,容错率没有那么高。

  只有能力基线的提升,AI 在企业领域才能有所作用,包括使用工具、有条理思考、解决问题、递归纠正自身错误、进行长上下文检索等能力。

  这些能力在边缘确实很重要。

  OpenAI 与多家企业合作测试这些模型,特别是 GPT-5。从像 Uber、Amgen、Harvey、Cursor、Lovable、JetBrains 等公司那里,OpenAI 得到了很多反馈。

  如 Cursor、JetBrains、Windsurf、Cognition 等,都反馈说 GPT-5 现在感觉是最强大的编码模型,无论是在交互式编码环境中还是在更具代理性的编码环境中。

  此外,GPT-5 在其他领域中的推理和解决问题的能力有了显著提高。

  Harvey 就是一个很好的例子,Harvey AI 与律师事务所合作,非常依赖其可靠、准确和一致地分析案例的能力,提供法律分析时所需的那种结构化思维水平。

  GPT-5 已经非常强大,未来肯定会有更优秀的模型,这一点毋庸置疑。

  但目前 OpenAI 只专注于两件事:如何让更多人用上 GPT-5,以及如何支持合作伙伴基于它开发生态。

  我们仍处于科学探索阶段——这才是最令人兴奋的地方,就像比赛才刚开局,OpenAI 自己也还在理解当前的范式。

  GPT-5 是重要的第一步,只有认清现状,才能看清未来。

  参考资料:

  https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759