国思软件 - AI能搞数学了吗？一位数学家的思考

　　OpenAI 的新模型 o3 在 FrontierMath 数据集中拿到了 25% 的得分。那这到底意味着什么呢？

　　什么是 o3 和 FrontierMath

　　o3 是一个新语言模型，类似 ChatGPT 这样的工具，可以回答问题并生成文字。早期的语言模型连完整的句子都写不好，直到 ChatGPT 出现才真正实现了语言上的流畅表达。此后，语言模型迅速发展，至今仍在快速进步。o3 是其中的最新代表。

　　FrontierMath 是由 Epoch AI 上月推出的一个数学题数据集，包含“数百道”高难度问题。虽然细节不多，但据传初期题目不到 200 道，后来可能增加了一些。题目要求答案必须明确且可自动验证，避免了人工批改的高成本。

　　FrontierMath 的难度如何

　　这些题目不是要你“证明定理”，而是让你“找出一个数”。例如，公开的五道样题答案全是正整数，其中有 9811、367707，其他几个甚至更大。题目设计非常复杂，靠猜是不可能解出的。

　　作为一名研究数学的学者，我理解这些题目，但只解决了其中两道。一些问题需要博士级别的解析数论知识，而一位聪明的本科生可能连一题都做不出来。比如，数学家 Terence Tao 认为这些题目“极具挑战性”，只有领域专家才能解决。而 Richard Borcherds 则认为，仅靠计算得出数字并不等同于原创证明。

　　为什么需要这个数据集

　　研究数学的核心是寻找证明，而不是计算数字。然而，为 AI 提供像 FrontierMath 这样高难度的数据集非常重要，因为它填补了 AI 数学训练中缺乏高质量测试的问题。

　　尽管 FrontierMath 更关注“数字答案”，它仍是衡量 AI 数学能力的重要工具。如果有 AI 能轻松解决这些问题，那对数学家来说无疑是巨大的冲击。

　　AI 数学能力的现状

　　目前 AI 的数学水平大约在本科或以下，擅长类似高中数学竞赛的题目。虽然它可能很快能通过本科数学考试，但距离产生创新想法还有很大差距。比如，AI 对 Putnam 考试的表现非常一般，多数题目的分数都很低。这些都表明，AI 在攻克 FrontierMath 这样的高难度问题上还需要很长时间。

　　然而，Epoch AI 的 Elliot Glazer 指出，数据集中 25% 的问题是奥赛或本科水平，这让我对 AI 的成绩有了新的认识。随着技术进步，我期待 AI 在更高难度问题上取得突破，这将是重大进展。

　　证明定理：真正的挑战

　　即使 AI 能解决“找数字”的问题，研究数学的核心仍在于“证明定理”。2024 年，DeepMind 的 AlphaProof 成功解决了国际数学奥赛的 4 道题，并给出了正式验证的 Lean 证明，这是 AI 数学的一大进步。然而，这些仍停留在高中数学的范畴，距离更复杂的研究还有很远的路要走。

　　更大的挑战是如何让 AI 不仅证明定理，还能用人类易懂的方式解释。这是当前 AI 数学研究的难点。什么时候 AI 能真正超越本科水平？没有人知道答案，但前方的路仍然漫长。

　　本文译自 Xena，由 BALI 编辑发布。

AI能搞数学了吗？一位数学家的思考

我们的产品

相关链接

关于我们

联系我们