国思软件 - 人类56年解不出，谷歌AI一夜连破9道世纪难题！

　　新智元报道

　　DeepMind 发布全新数学智能体 AlphaProof Nexus，9 道 Erdős开放难题一次性告破，最老的悬了 56 年！全部证明都已经过 Lean 编译器形式化验证，没有幻觉。网友惊呼：数学奇点的火花点燃了。

　　数学界这个月，彻底疯了。

　　前脚 OpenAI 刚把 Erdős 80 年猜想推翻，数学家们的惊呼声还没落地。

　　紧接着，Google DeepMind 发布了一个全新 AI 数学智能体——AlphaProof Nexus。

　　论文地址：https://arxiv.org/abs/2605.22763v1

　　它一出手，就干掉了 9 道悬而未决几十年的 Erdős开放问题。其中最古老的那个，悬了整整 56 年！

　　而且，每道题花费的算力成本，只有几百美元。

　　更关键的是，这次的证明不可能有错。

　　每一步推理都经过 Lean 编译器的形式化验证，不存在幻觉空间。编译器通过，证明就是对的。

　　值得一提的是，AlphaProof Nexus 和 2024 年拿下 IMO 银牌的初代 AlphaProof 完全不同。

　　初代只有强化学习树搜索，Nexus 把大语言模型、AlphaProof 和进化算法三合一，直接瞄准了人类数学家啃不动的研究级难题。

　　AlphaProof Nexus

　　进化算法 +LLM+Lean 编译器

　　这套系统的架构分为四个层级，从简单到复杂。

　　1. Agent A（基础版）

　　多个独立的证明子智能体并行工作，每个子智能体与 Gemini 3.1 Pro 进行多轮对话，通过搜索替换工具修改 Lean 代码，编译器实时反馈错误信息，子智能体根据反馈迭代修正。

　　2. Agent B

　　在A的基础上加入了 AlphaProof 作为工具。当子智能体在某个子目标上卡住时，可以调用 AlphaProof 进行强化学习驱动的树搜索，尝试攻克局部难点。

　　3. Agent C

　　引入进化算法。多个子智能体不再独立工作，而是共享一个「种群数据库」。每个证明草稿会被 LLM 评审员打分（用 Elo 评分系统），高分草稿被优先采样、变异、进化。

　　4. Agent D（完整版）

　　集大成者。进化算法 + AlphaProof + Gemini 3.1 Pro 协同作战。这是 DeepMind 用来大规模扫荡 Erdős问题的主力武器。

　　整个工作流的核心循环非常清晰——

　　AI 提出证明草稿 → Lean 编译器验证 → 失败则反馈错误信息 → AI 修正 → 再验证 → 循环往复，直到证明完全通过或耗尽算力预算。

　　以Erdős #125为例，它的解题过程是这样的。

　　首先，子智能体先用思维链推理分析问题结构，然后通过搜索替换修改 Lean 代码，接着调用 AlphaProof 处理子目标。

　　AlphaProof 搞定了 6 个子目标中的 3 个，子智能体随即将剩余的「硬骨头」分解为更小的引理，再次调用 AlphaProof——这次，全部搞定。

　　整个过程中，没有任何人类数学家介入。

　　9 道 Erdős问题

　　56 年前的悬案一朝告破

　　DeepMind 将完整版 Agent D 投放到 353 道已形式化的 Erdős问题上。每道题最多允许 3000 轮迭代。

　　最终，9 道问题被攻克。

　　其中含金量最高的几道：

　　1. Erdős #12（1970 年提出）

　　是否存在一个无限集A，满足「任意三个不同元素a

　　这道题悬置了 56 年，期间多位数学家取得了部分进展，但始终无法给出完整构造。

　　AI 的解法精妙地结合了中国剩余定理和三项等差数列回避集，通过构建一系列精心设计的「区块」来同时满足密度条件和整除约束。

　　2. Erdős #125（1996 年提出）

　　在三进制下只用数字 0 和 1 的整数集A，加上四进制下只用数字 0 和 1 的整数集B，它们的和集A+B的下密度是否为正？

　　AI 证明了答案是否定的——下密度为零。

　　证明的核心是一个归纳稀疏化论证，巧妙利用了3^m和4^k的丢番图逼近性质（log4/log3 是无理数），通过反复找到两个基数几乎对齐的尺度，让密度以 0.99 的比率逐步衰减到零。

　　3. Erdős #138（1981 年提出的变体）

　　van der Waerden 数W(k+1) - W (k)是否趋于无穷？

　　AI 给出了一个极其优雅的证明：W(k+1) ≥ W (k) + k。核心思路是贪心染色扩展——在一个没有单色k-AP 的2-着色基础上，逐个添加新元素，用反证法说明贪心策略不会失败。

　　4. Erdős #846

　　这是一个关于平面点集中共线性质的问题。

　　而 AI 的构造，令人叹为观止。

　　它把完全图K∞的每条边映射到平面上的一个点，用二次多项式编码坐标，然后利用无穷 Ramsey 定理完成证明。

　　目前，所有 9 道问题的 Lean 证明代码已开源在 GitHub 上。

　　项目地址：https://github.com/google-deepmind/alphaproof-nexus-results

　　简单 Agent 也能解全部 9 题？！

　　最出人意料的结论，不是完整版 Agent D 有多强，而是——

　　最简单的 Agent A，也能解决全部 9 道问题。

　　Agent A 没有进化算法，没有 AlphaProof，只有多个独立的 LLM 子智能体和 Lean 编译器的反馈循环。

　　根据 DeepMind 团队的对比分析，它在大多数问题上，Agent A 和 Agent B（加了 AlphaProof 的版本）的表现在误差范围内几乎相同。

　　相比之下，Agent D 的优势主要体现在最困难的问题上（比如#125 和#138），能以 2 到 5 倍的成本优势完成证明。

　　对此，DeepMind 将基础 Agent 的成功归因于两个因素：LLM 自身能力的飙升，以及编译器反馈在锚定 LLM 推理方面的强大作用。

　　也就是说，随着基础模型越来越强，复杂的系统工程可能逐渐让位于简单的智能体循环。

　　今天需要进化算法和 AlphaProof 协同作战才能高效解决的问题，明天可能一个朴素的 LLM+ 编译器循环就够了。

　　具体到成本，最便宜的一道题（#741(ii)）中位成本仅5-7 美元，最贵的（#152）也不过 200-400 美元。

　　但前提是用对了模型——单独运行 AlphaProof 或使用较小模型（Gemini 3.0 Flash 等），9 道题一道都解不出来。

　　代数几何 15 年悬案、凸优化新界一并搞定

　　除了 Erdős问题，AlphaProof Nexus 还在多个数学分支中取得了实质性突破：

　　OEIS 猜想：系统自动形式化了 492 个开放猜想，证明了其中 44 个。为防止形式化错误，系统要求先证明「测试引理」——验证序列前几项与形式化定义一致——才能尝试目标猜想。

　　代数几何：解决了一个悬置约 15 年的开放问题——证明了余维数3、类型 2 的纯O-序列的对数凹性。这个问题此前被认为是该领域最后一个主要未解情况。

　　凸优化：解决了一个关于锚定梯度下降-上升算法（Anchored GDA）精确收敛速率的开放问题。更妙的是，AI 不仅验证了一个固定算法，还在证明过程中自主搜索并发现了一个新的学习率调度参数，从而实现了更强的保证。

　　图论：证明了 Graffiti 系统在 1996 年提出的一个关于生成树叶子数与局部独立集的猜想，形成了一个有趣的闭环——AI 证明了另一个 AI 提出的猜想。

　　加法组合学：帮助解决了 Ben Green 著名开放问题列表中的第 57 题。

　　量子光学：与 Mario Krenn 合作，解决了多个关于单色量子图的猜想，对应高维 GHZ 量子态的构造。

　　三路合围，数学前沿全面失守

　　2026 年 5 月，AI 在数学领域的造诣，几乎同时达到了研究级水平。

　　OpenAI 走的是自然语言路线。

　　通用推理模型直接输出证明，推翻了 Erdős 80 年单位距离猜想。证明极其精妙，但验证它需要人类顶级专家逐行审查。

　　菲尔兹奖得主 Gowers 把未解问题扔给 GPT-5.5 Pro，两小时拿到博士论文级成果，全程数学贡献为零。

　　DeepMind 走的是形式化验证路线。

　　AlphaProof Nexus 让 AI 用 Lean 语言写证明代码，编译器自动检查每一步推理。任何一步出现逻辑断裂，编译器直接报错，证明被拒绝。

　　自然语言路线灵活，但可能有幻觉。形式化路线可靠，但目前局限于 Lean 数学库成熟的领域。

　　而 DeepMind 的数学家合作者发现了一个意料之外的收获——

　　即使智能体无法证明目标定理，它生成的证明尝试也加深了他们对问题的理解。因为草稿是形式化的，专家可以直接聚焦于未解决的子目标，而不需要重新验证整个论证链。

　　换句话说，AI 不只是在解题，它正在改变数学家思考问题的方式。

　　如今，未来的图景已经浮现：

　　AI 先用自然语言探索证明思路，再用形式化系统逐步固化和验证。

　　人类数学家的角色，则从「亲手推导」转向「提出问题、审查方向、提炼洞见」。

　　有人说，我们正目睹数学奇点的早期火花。

　　几百美元算力，几十小时运行，56 年悬案告破，编译器给出铁证。

　　保罗·埃尔德什生前留下了 1217 道数学难题，悬赏后人求解。

　　他大概从未想过，有一天来领赏的，不是人类。

　　参考资料：

　　https://x.com/prz_chojecki/status/2058435083741061359?s=20

　　https://arxiv.org/abs/2605.22763v1

　　编辑：摩西

人类56年解不出，谷歌AI一夜连破9道世纪难题！

我们的产品

相关链接

关于我们

联系我们