o3狂烧3万美金解一题,反被AGI榜单除名!试错1024次不如10岁小孩哥4分钟

  新智元报道

  编辑:编辑部 YNH

  OpenAI o3 推理成本从 3000 美元飙至 3 万美元,暴增 10 倍。o3-high 靠暴力试错生成 4300 万字解题,却被 ARC-AGI「除名」。

  短短几个月,最新评估显示,o3 推理成本比预初估计暴涨 10 倍!

  在 ARC-AGI 最新测试上,AI 单次任务曾用 3000 美元,而如今已飙升至 30000 美元。

  来自牛津大学的高级研究员 Toby Ord 指出,o3-high 看似性能强大,实则更多地依赖于海量计算,而非真正的推理突破。

  o3-high 在对每个任务尝试 1024 次,每次生成 137 页文本,总计 4300 万字——相当于为每个任务写了一本《大英百科全书》(4400 万字)。

  结果就是,完成每个任务成本高达 3 万美金。而这些简单的谜题,一个 10 岁的孩子可能只需 4 分钟就能解决。

  成本飙升直接导致了 o3-high 超出 ARC-AGI 每个任务 1 万美元限制,直接被排除在排行榜之外

  甚至,o3-high 的算力消耗竟是 o3-low 的 172 倍。

  这种「暴力试错」的方式不禁让人质疑:这真的是智能解题吗?

  从惊艳到惊吓,o3 成本暴增 10 倍

  去年 12 月,OpenAI 推出了推理模型 o3。

  为了展示 o3 的强大性能,他们邀请了 ARC PrizeFoundation 主席 Greg Kamradt 一同参与那次发布会。

  就在上周,ARC Prize Foundation 更新了他们对 o3 模型计算成本的估算,结果令人震惊。

  最初,他们估计 o3-low 解决一个 ARC-AGI 任务的成本为 20 美元,o3-high 为 3000 美元。

  而现在,根据修订后的 ARC-AGI 表,这些数字分别增加到 200 美元和 3 万美元。

  这要比他们预计的成本整整高出 10 倍,这也可能是 OpenAI 迟迟没有正式发布 o3 的原因。

  成本实在是太高了。

  对此,ARC Prize Foundation 的联合创始人之一 Mike Knoop 表示:「我们认为 o1-pro 更接近 o3 的真实成本,因为它在测试时用了大量的计算资源」。

  o3 的原始估算仅为 OpenAI 现有 o1-pro 模型收费的1/10,因此,他们以 o1-pro 定价作为参考,更新了定价数据。

  「但这只是个参考,我们在排行榜上把 o3 标记为预览版,就是为了反映官方定价的不确定性。」

  研究员 Toby Ord 称,令人失望的是,更新后的图表显示,o3 整体表现几乎未超出 o1 对数收益的趋势。

  他对此推测,或许是因为 o3 是在 ARC-AGI 公开测试集的 75% 上进行了专门的训练,而 OpenAI 并未发布任何消融数据澄清这一增益的来源。

  相较之下,o3-mini 更让人眼前一亮,所用的计算资源比 o3-high 要烧 1000 倍,却能展现出真正突破趋势的表现。

  一直以来都有传言称 OpenAI 打算为企业客户推出昂贵的会员计划。

  有人可能会觉得,即便是如此高的会员费也比请一个员工便宜。

  但当一个任务需要 3 万美元、4300 万字「暴力堆砌」下才能解决,这种效率是否真的划算。

  ARC-AGI 五年不败,难倒了一片 AI

  提起 ARC-AGI,最初只是 Keras 之父 François Chollet 在谷歌一个副业项目,如今却成为所有 AI 必考题。

  ARC Prize Foundation 是一家非营利组织,使命是在基准测试期间成为 AGI 的北极星。

  他们的第一个基准 ARC-AGI,是 François Chollet 于 2019 年在关于智力测量的论文中发表的,它在 AI 领域已经保持 5 年不败。

  随着模型变得越来越强,上个月,他们更新了 ARC-AGI-2。

  不像 ARC-AGI-1,这个新版本不容易靠蛮力破解。这对 AI 来讲非常难。

  难到什么程度呢?

  像 GPT-4.5、Claude 3.7 Sonnet、Gemini 2 等这些现在顶尖的基础模型得分都是0%。也就是说一道也解不出来。

  推理模型也没好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini 得分也只有0-1%。

  为什么会这样?

  原因在于 ARC-AGI-2 的所有任务都需要一些认真的思考。

  也就是说,推理模型在解决这些任务时,需要进行大量的推理,消耗非常多的 Token。

  比如,当前最先进的推理模型在处理需要把符号看作「有意义的内容」时,表现并不好。

  它们会尝试检查对称性、做镜像、进行图形变换,甚至能识别符号之间的连接关系,但却无法理解这些符号本身所代表的含义。

  符号解释:ARC-AGI-2 公共评估任务#e3721c99

  在需要同时运用多条规则,或者这些规则相互影响的任务中表现得也很吃力。

  相比之下,如果任务只涉及一条或极少数几条整体性的规则,AI 通常能稳定地发现并正确运用这些规则。

  组合推理:ARC-AGI-2 公开评估任务 #cbebaa4b

  在面对需要根据具体情境灵活应用规则的任务时这些推理模型同样表现不佳。

  它们往往只关注表面模式,而不是理解背后真正的选择原则。

  上下文规则应用:ARC-AGI-2 公共评估任务 #b5ca7ac4

  几年内,AGI 或将出现

  虽然这些顶尖的推理模型在 ARC-AGI 的测试中表现不理想,但并没有妨碍很多人对实现 AGI 的畅想。

  在最新一篇博客中,DeepMind 就表示「通用人工智能(AGI)可能在未来几年内到来」。

  结合 AI 智能体的能力,AGI 可以大幅提升 AI 在理解、推理、规划和自主执行行动方面的能力。这种技术进步将为社会提供宝贵的工具,以应对包括药物发现、经济增长和气候变化在内的关键全球挑战。

  而这也意味着,我们可以期待数十亿人将从中获得切实的益处。例如:

  • 通过实现更快速、更精准的医疗诊断,它可以革新医疗保健领域;

  • 通过提供个性化的学习体验,它例如,使教育更加普及且更具吸引力;

  • 通过增强信息处理能力,它可以帮助降低创新和创造的门槛;

  • 通过使先进工具和知识的获取更加便捷,它可以让小型组织有能力解决那些以前只有大型、资金充足的机构才能应对的复杂挑战。

  而现在,o3 成本暴涨 10 倍,智能边界似乎比我们想象的更远。

  未来几年,AGI 曙光或许将至,但眼下,烧钱智能并不代表着真正的推理突破,我们仍需保持清醒与期待。

  参考资料:

  https://x.com/tobyordoxford/status/1907379921825014094

  https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/