NP难问题接近被AI破解!南航牛津爆改DeepSeek-R1推理,碾压人类27年研究

  新智元报道

  编辑:Aeneas 好困

  给 DeepSeek-R1 推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B 居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了 27 年。研究者预言:LLM 离破解 NP-hard 问题,已经又近了一步。

  就在刚刚,南航、南通大学、牛津等机构的研究者发现:通过高指令的推理指令,DeepSeek-R1 有望解决数学上的 NP-hard 问题!

  论文地址:https://arxiv.org/abs/2502.20545

  NP-hard 问题,是计算复杂性理论中的一类问题。它们至少和 NP 问题一样难,但不一定属于 NP 类别(即不一定中多项式时间内被验证)。

  本来,DeepSeek-R1、GPT-4o、OpenAI o1-mini 这些模型,是做某种数学推理难题(SoS)是很困难的,正确率也就比纯猜高一点。

  但是,一旦给它们一些推理指导,所有的模型的推理能力立马噌噌上涨,专业率最高提升了 21%。

  更令研究者们吃惊的是,Qwen2.5-14B-Instruct-1M 在指导下,居然用了一个新奇精巧的方法,给出了一个此前从未见过的希尔伯特问题的反例:

  要知道,希尔伯特问题的反例,可并非简单推导就能得出来的。

  自 1893 年问题被提出之后,首个反例的发现耗时长达 27 年!

  如今,却被 LLM 短时间内破解了。

  研究者们大胆预言:照这个速度演进,LLM 离破解 NP-hard 问题已经很近了。

  LLM 能解决希尔伯特第十七问题吗?

  如今,LLM 在众多任务上,表现已经接近人类水平,但它们在严谨数学问题求解上的能力,仍是不小的挑战。

  这次,研究者决定给大模型们来一个硬核难题——判断给定的多元多项式是否为非负的。

  这个问题,和希尔伯特第十七问题密切相关。后者由数学家希尔伯特在 1900 年提出后,立马成为 23 个经典数学问题之一。

  而且,许多应用数学和计算数学中的关键挑战,都可以转化为判断某些多项式的非负性问题,比如控制理论、量子计算、多项式博弈、张量方法、组合优化等。

  然而,判断一般多项式是否非负,是一个公认的 NP-hard 问题!

  即使对于相对低阶或仅含少量变量的多项式,此问题仍然极具挑战性。

  怎么办?为此,研究者们只能去寻找多项式的特殊类别,将复杂的非负性约束,替换成更简单一些的条件。

  由此,平方和(SoS)条件就登场了。

  作为一项数学技术,它通过将多项式表示为若干平方项的和,提供了一种充分但非必要的非负性判定方法。

  所以,OpenAI o1 和 DeepSeek-R1,能解决 SoS 条件规划问题吗?

  用一个数据集,给 LLM 专业推理指导

  为此,研究者构建了 SoS-1K 数据集。

  这个数据集经过了精心策划,包含约1,000 个多项式,并配备了五个精心设计的专家级 SoS 专业推理指导。

  具体包括:

  •   多项式阶数

  •   主导搜索方向的非负性

  •   特殊结构的识别

  •   平方形式表达的评估

  •   单项式的二次形式矩阵分解

  接下来,属于 SOTA 模型们的考验来了!

  DeepSeek-R1、DeepSeek-V3、GPT-4o、OpenAI o1-mini、Qwen2.5 系列和 QwQ-32B-Preview 在内的多位明星大模型,接受了数学难题的洗礼。

  研究者们得出了一系列有趣的发现。

  首先,如果未提供任何推理指导,所有的 SOTA 模型几乎都无法解决 SoS 问题。

  它们的准确率基本都在 60%,仅仅略高于 50% 的随机猜测基线。

  不过,一旦使用高质量的推理轨迹进行提示,所有模型的准确率就立马有了显著提升!

  最高的提升了 21%,而且推理质量越高,模型表现就越好。

  另外还有两点发现:专注于推理的 LLM 通常优于通用 LLM,无论提示质量如何。

  参数较大的模型通常只用更少的推理步骤,就能正确预测,而小模型要达到最佳性能,就需要更多的推理过程了。

  14B 模型竟发现了此前未见的希尔伯特问题反例

  然后,研究者还进一步证明,对一个预训练的 7B 模型在 SoS1K 数据集上进行 4 小时的监督微调后,仅使用 2 张 A100 GPU,就能让它准确率从 54% 暴增至 70%,响应速度也大幅提高。

  其中,SoS-7B 仅需 DeepSeek-V3 和 GPT-4o-mini 计算时间的 1.8% 和5%。

  也就是说,这个 7B 模型超越了 671B 的 DeepSeek-V3 和 GPT-4o-mini 在内的更大规模模型。

  然后,惊人的结果来了——

  当模型被输入高质量的推理提示时,甚至在研究级问题上做出了革命性的突破。

  比如,Qwen2.5-14B-Instruct-1M 就利用 Motzkin 多项式,生成了全新的、此前未见的希尔伯特第十七问题的反例。

  具体来说,模型是如何发现这个反例的?

  研究者展示了以下过程:通过 SoS Reasoning 提示,Qwen-14B-1M 推导出了一个新的有效 NNSoS 示例:

  模型构建这个例子的方法,非常新奇有趣,令研究者赞叹不已。

  它从 NNSoS 的著名例子开始,如: ,然后,引入了一个新变量并稍微修改了系数,进而生成了q_a。

  这也就给了我们极大信心:按照如今 LLM 展现出的推理能力,或许有朝一日,它们真能破解 NP-hard 问题。

  值得一提的是,团队只用 2 张英伟达 A100 GPU,耗时 4 小时就完成了对 Qwen2.5-7B-Instruct-1M 的微调。

  由此得到的 SoS-7B 模型达到了 70% 的总体准确率,超过了 671B 参数量的 DeepSeek-V3(69%),同时响应时间仅需 1.8 秒,而 DeepSeek-V3 则需要 100 秒。

  SoS-1K Dataset

  首先,研究者对 SoS 多项式做出了定义。

  随后,研究者们为 LLM 精心设计了指令,从而提供了结构化的分析框架,明确了约束条件,优化了逻辑推理流程,让它们显著提高了解题能力。

  为此,他们构建了三种不同层次的的推理指令集。

  1. 基础 SoS 指令(SoS Plain)

  直接向 LLM 提问:「请分析该多项式是否可以表示为平方和(SoS)」?

  2. 简化 SoS 指令(SoS Simple)

  将 SoS 多项式划分为五个不同类别,每个类别由简洁的一行标准定义。

  3. 基于推理的完整 SoS 指令(SoS Reasoning)

  这是一个结构化的五步框架,用来系统化识别 SoS 多项式。

  而就是这个 SoS Reasoning,成为了 LLM 解决数学研究级问题的基础,让它们的能力扩展到更复杂的数学推理任务。

  下面就是一个 SoS Reasoning 的示例。

  •   步骤 1.检查次数:SoS 多项式的最高次数必须是偶数。

  •   步骤 2.检查非负性:SoS 多项式对所有实数输入都应为非负值。

  •   步骤 3.检查已知特例:任何非负二次多项式以及任意一元或二元的非负四次多项式均为 SoS。

  •   步骤 4.检查平方形式:根据定义 2.1,SoS 多项式可表示为:p_s(x) = ∑_i{q_i(x)²}。其中,每个q_i(x)均为多项式。

  •   步骤 5.检查矩阵分解:根据定理B.1,可以将多项式表示为:p(x) = y*ᵀQy*。其中,Q为对称矩阵。随后,检查Q是否为半正定矩阵。

  SoS 任务上的 LLM 评估

  在 SoS-1K 数据集中,研究者随机抽取了约 340 道测试题,涵盖了所有测试子类别。

  参与评估的有专门的推理模型(如 DeepSeek-R1、OpenAI o1-mini 和 QwQ-32B-Preview),以及通用大模型(如 DeepSeek-V3、GPT-4o 和 Qwen2.5 系列)。

  结果如下。

  模型对 SoS 和非负性的理解

  有人可能会问:

  •   模型是只学会了分类,还是真正发展出了「思考」和「构建」新证明和示例的能力?

  •   当面对 SoS 或多项式优化中的研究问题时,模型能否生成具有数学意义的见解?

  为了探索这一点,团队设计了一系列研究导向的问题来测试模型理解 SoS 和非负性质背后数学概念的能力。

  比如,问 Qwen-7B-1M 和 Qwen14B-1M:你能提供一个文献中从未出现过的新 NNSoS 吗?

  有趣的是,当使用 SoS Plain 提示时,Qwen-14B-1M 只能给出文献中已知的例子,而 Qwen-7B-1M 返回了一个不正确的答案:

  虽然回答错误,但这个问题挑战性极大,即便像 YALMIP 这样的经典求解器也无法提取全局最优性。

  然而,当使用 SoS Reasoning 提示向模型提出相同的研究问题时,模型正确地识别出了 pa 不是问题的有效解。

  这一改进源于 SoS 推理的第 4 步,其中模型认识到p_a(x)是两个变量的非负四次多项式,因此不可能是 NNSoS。

  进一步分析

  Q1:模型是否遵循真正的数学逐步验证过程?

  结果显示,LLM 能够按照 SoS 推理指令,一步一步生成逻辑和数学都正确的答案。

  比如在下面这个例子中,o1-mini 的回复不仅在逻辑上和数学上是正确的,而且一旦模型推导出答案就自然停止,而不是盲目地遍历所有可能的步骤。

  Q2:模型能否有效地从长文本多项式中提取关键信息?

  与标准文本输入不同,多项式是由变量、系数、指数和项组成的复杂代数表达式。因此,对于 LLM 来说,有效解释和提取此类结构化格式中的关键信息至关重要。

  分析表明,虽然 QwQ-32B-Preview 在处理超过 4K token 长度的问题时会遇到困难,但大多数 SOTA 的模型都能够成功地从 4K 长度的多项式中提取必要的系数进行评估,并生成正确的答案。

  Q3:在 SoS 推理的第 1 步到第 5 步中,哪一步的准确率有所提高?

  图 2 展示了 o1-mini 模型在基础 SoS(SoS Plain)、简化 SoS(SoS Simple)和完整 SoS 推理(SoS Reasoning)下不同测试集的准确率提升情况。

  结果显示,最简单的 Test Set 1(对应步骤1)在所有提示方法下,都毫无意外地达到了 100% 的准确率。

  得益于步骤 2 和步骤5,对于更具挑战性的 Test Sets 2a、3.1a、5.1a–5.4a,从基础 SoS 到简化 SoS 再到完整 SoS 推理,也都有持续的改进。

  因为,这些步骤引入了一系列用于非负性验证的数学方法,包括常数系数检查、网格求值、首项和主导项比较、寻找最小值、矩阵分解以及寻找对称性和平移。

  Q4:模型在推理过程中会「偷懒」吗?

  是的,在 SoS 推理提示下观察到的另一个有趣现象是,模型在执行第 5 步时往往会「走捷径」。

  具体而言,它通常会避免完全执行第 5 步中的矩阵分解或半正定规划(SDP)等复杂操作,而是基于前面步骤的结果推测答案。这种行为在处理长输入和复杂多项式时尤为普遍。

  对于较简单的问题,推理模型如 o1-mini(运行时间最短,为 17 秒)和较大的模型如 QwQ-32B-Preview 往往会采取捷径,跳过第 5 步,从前面更简单的步骤中推断答案。

  而 DeepSeek-V3 则不会走捷径,而是花费明显更多的时间(40 秒)正确地解决所有步骤。

  Q5:推理长度如何影响准确性?

  如图 3 所示,更高性能的模型通常需要更少的思考所需 token 数量来做出正确预测,而性能较低的模型需要更多的推理步骤才行。

  例如,DeepSeek-R1 和 o1-mini 在 1K-2K 的输出长度下,就达到最高的正确预测数量;而 Qwen2.5 系列需要 3K-4K 个 token 才能产生正确答案。

  Q6:当前的 SOTA 模型有什么局限性?

  首先,对于长输入情况,会出现无效样本。例如,在 DeepSeek-R1 中,340 个样本中只有 234 个是有效的。

  其次,在处理复杂问题时,「走捷径」虽然会节省时间,但在困难步骤时过早停止并猜测答案,会对准确性产生负面影响。

  第三,虽然这些模型在处理小型多项式时表现出色(准确率接近 90%),但在多项式的二次型涉及低秩矩阵分解时,表现不佳。

  参考资料:

  https://arxiv.org/abs/2502.20545