新智元报道
编辑:编辑部 HYZ
OpenAI o3 的智商,竟然已经高达 157,碾压 99% 的人类?这张 OpenAI 模型智商图全网疯转。甚至有人大胆预测:达到陶哲轩智商(225-230)的大模型,应该会很快出现了。
o3 智商竟有 157,堪比爱因斯坦?
今天,一张 OpenAI 模型智商图,在全网传遍了。
基于编程竞赛 Codeforces 排名评分
图中清晰可见,能够达到 o3 智商水平的人类大约占比仅有 0.0075%。
13333 人当中,也仅有 1 人 IQ 是 o3 级别的。对于 GPT-4o,6 人当中就有 1 人能够达到 IQ 115 的水平。
从 GPT-4o、到 o1 系,再到 o3 系,模型 IQ 逐渐递增,也仅用了 1 年时间,实现了质的飞跃。即便是最强 o1 pro(IQ 为 139),o3 完全领先近 20 分。
有网友表示,用不了多久,我们口袋里就会拥有一个 IQ 157 的智能。
还有人称,陶哲轩智商大约在 225-230 之间,未来模型很快就能达到这个水平。
o3 超高智商背后
o3 发布之后,很多人都认为 AGI 实现了。
从 o1 到 o3,OpenAI 仅用了 3 个月;从 o1 pro 到 o3,仅用了 1 个月。种种迹象表明,Scaling Law 并未终结。
过去五年,OpenAI 模型在 ARC-AGI 上的得分,也说明了一切。
OpenAI 研究员 Nat McAleese 在 o3 发布当天,分享了一些关于模型的介绍。
他表示,o3 代表着通过强化学习在通用领域的巨大进步。
o1 是首个大规模推理模型,也仅仅是一个通过 RL 训练的大模型。o3 是通过在 o1 基础上,进一步 scaling 强化学习而开发的。
我们已经看到,o3 在世界上最具竞争的编程基准 CodeForces 中得分超 2700,完全达到了国际大师的水平。
与此同时,o3 在数学基准 FrontierMath 惊艳表现令人生畏,甚至击穿了陶哲轩的预言。
在 Keras 之父 François Chollet 转写的报告中,也解释了 o3 与以往旧模型之间的区别:
o3 的核心创新点在于,实现了 token 空间内自研语言程序搜索和执行。在测试时,它会搜索可能的 CoT 空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。
而且,他表示,这种方式与 AlphaZero 的蒙特卡洛树搜索并无太大差异。
本质上,o3 是一种深度学习引导的程序搜索形式。
不过,即便 o3 进化速度如此疯狂,OpnenAI 研究员 Will depue 表示,这还不是 AGI,我们还有很长的路要走。
o3 ARC-AGI 测试被曝「作弊」?
而且就在最近,o3 的 ARC-AGI 测试结果,在圈内引起了不小的争议。
要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对 AI 来说却很难的题目。
根据 OpenAI 的说法,在 ARC-AGI 这个基准测试中,o3 在低计算模式下,在半私有评估中的得分为 75.7%;在高计算模式下,得分为 87.5%。
而人类在该任务上的表现通常在 85% 的水平,也就是说,o3 在高计算模式下,已经超越了人类。
这个结果,引起了多人的质疑:OpenAI 不会专门针对这个任务做过训练吧?
要知道,在直播的第 12 天,奥特曼专门强调过,「并未对模型做过特殊处理」。
对此,心细的网友们纷纷展开调查。
比如这位名为 Knight Lee 的网友,就表示 o3 在 ARC-AGI 上的分数是经过微调的,而之前的 AI 分数并没有被微调。
他表示,o3 的一个主要优势,就是接受过示例测试问题的明确训练而已。
之所以有这样的观点,是他引用了 ARC-AGI 设计师 François Chollet 的说法——
OpenAI 分享说,他们测试的 o3 是在公共训练集 75% 的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经 ARC 数据训的模型,因此尚不清楚其性能有多少归因于 ARC-AGI 数据。
这个这个说法为真,那 o3 所取得的分数,显然占了很大便宜。
OpenAI 研究员 Zach Stein-Perlman 反驳说,他们没有针对 ARC 对 o3 做过微调。
不过今天出来的 o3 智商 157 的结果,至少可以为它的性能稍稍正名了。
o4 才是 Orion?
而且,在 o3 之后,或许还会有 IQ 更强的模型现身。
Information 独家爆料称,o3 并不是代号为 Orion 的模型。相对的,Orion 可能会作为 o4 的基础模型。
OpenAI 研究员 Jason Wei 称,从 o1 到 o3 仅用了 3 个月的时间,这表明在新范式下,进展远快于预训练范式每1-2 年更新一次模型的速度。
推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。
也正因此,o3 推理代价是高昂的。ARC-AGI 基准测试报告中,已经披露了 o3 在每个高计算任务中的成本会超过 1000 美金。
这也充分解释了,OpenAI 博士级 AI 助手能达到每月 2000 美元的原因。
另一位 OpenAI 研究员 John Hallman 对此表示,当 Sam 和我们研究人员说 AGI 即将到来时,我们不是为了给你画大饼,不是为了推 2000 美元的订阅,也不是为了诱骗你投资我们的下一轮融资。它真的要来了。
目前,不清楚的是,o3 对普通 ChatGPT 用户能带来多大帮助。
o3 可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。
而对于普通用户而言,新模型可能有点「大材小用」。
虽然 o3 表现出色,其他科技巨头也不甘示弱。
谷歌强势推出了 Gemini 2.0 Flash、视频模型 Veo 2,以及由耗资 30 亿美金聘请 AI 研究员 Noam Shazeer 开发的推理模型。
一些对价格敏感的开发者,纷纷转向了谷歌 Flash 模型。
可以看出,推理模型仍将继续超进化迭代,2025 年也将会如今年一样令人兴奋。
参考资料:
https://x.com/i_dg23/status/1871135348069482993
https://x.com/kimmonismus/status/1871162085675253977