OpenAI 的新模型 o3 在 FrontierMath 数据集中拿到了 25% 的得分。那这到底意味着什么呢?
什么是 o3 和 FrontierMath
o3 是一个新语言模型,类似 ChatGPT 这样的工具,可以回答问题并生成文字。早期的语言模型连完整的句子都写不好,直到 ChatGPT 出现才真正实现了语言上的流畅表达。此后,语言模型迅速发展,至今仍在快速进步。o3 是其中的最新代表。
FrontierMath 是由 Epoch AI 上月推出的一个数学题数据集,包含“数百道”高难度问题。虽然细节不多,但据传初期题目不到 200 道,后来可能增加了一些。题目要求答案必须明确且可自动验证,避免了人工批改的高成本。
FrontierMath 的难度如何
这些题目不是要你“证明定理”,而是让你“找出一个数”。例如,公开的五道样题答案全是正整数,其中有 9811、367707,其他几个甚至更大。题目设计非常复杂,靠猜是不可能解出的。
作为一名研究数学的学者,我理解这些题目,但只解决了其中两道。一些问题需要博士级别的解析数论知识,而一位聪明的本科生可能连一题都做不出来。比如,数学家 Terence Tao 认为这些题目“极具挑战性”,只有领域专家才能解决。而 Richard Borcherds 则认为,仅靠计算得出数字并不等同于原创证明。
为什么需要这个数据集
研究数学的核心是寻找证明,而不是计算数字。然而,为 AI 提供像 FrontierMath 这样高难度的数据集非常重要,因为它填补了 AI 数学训练中缺乏高质量测试的问题。
尽管 FrontierMath 更关注“数字答案”,它仍是衡量 AI 数学能力的重要工具。如果有 AI 能轻松解决这些问题,那对数学家来说无疑是巨大的冲击。
AI 数学能力的现状
目前 AI 的数学水平大约在本科或以下,擅长类似高中数学竞赛的题目。虽然它可能很快能通过本科数学考试,但距离产生创新想法还有很大差距。比如,AI 对 Putnam 考试的表现非常一般,多数题目的分数都很低。这些都表明,AI 在攻克 FrontierMath 这样的高难度问题上还需要很长时间。
然而,Epoch AI 的 Elliot Glazer 指出,数据集中 25% 的问题是奥赛或本科水平,这让我对 AI 的成绩有了新的认识。随着技术进步,我期待 AI 在更高难度问题上取得突破,这将是重大进展。
证明定理:真正的挑战
即使 AI 能解决“找数字”的问题,研究数学的核心仍在于“证明定理”。2024 年,DeepMind 的 AlphaProof 成功解决了国际数学奥赛的 4 道题,并给出了正式验证的 Lean 证明,这是 AI 数学的一大进步。然而,这些仍停留在高中数学的范畴,距离更复杂的研究还有很远的路要走。
更大的挑战是如何让 AI 不仅证明定理,还能用人类易懂的方式解释。这是当前 AI 数学研究的难点。什么时候 AI 能真正超越本科水平?没有人知道答案,但前方的路仍然漫长。