DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容

  9 月 18 日消息,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了《自然》(Nature)杂志封面。

  论文研究人员表示,DeepSeek 强大的 AI 模型 R1 之所以能成功,并不依赖于使用其竞争对手的输出内容进行训练。今年一月,R1 的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》(Nature)杂志的一篇经同行评议的 R1 模型论文的附带文件中。

  R1 旨在出色地完成数学和编程等“推理”任务,是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载它,并且它也是迄今为止在 AI 社区平台 Hugging Face 上最受欢迎的此类模型,下载量已达 1090 万次。

  这篇论文是对今年一月所发布的一份预印本的更新,该预印本描述了 DeepSeek 如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了 R1 的增量训练成本仅相当于 29.4 万美元。这笔费用是在该公司(总部位于杭州)为构建 R1 所基于的基础大语言模型而花费的约 600 万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek 表示,R1 主要是在英伟达的 H800 芯片上进行训练的,而根据美国的出口管制规定,该芯片自 2023 年起已被禁止向中国销售。

  严格的同行评审

  R1 被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face 的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

  为回应同行评议的意见,DeepSeek 团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学 AI 研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

  DeepSeek 的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建 R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

  孙欢表示,该模型在 AI 研究人员中“相当有影响力”。“2025 年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了 R1 的启发。”

  关于训练方式的争议

  今年一月的媒体报道曾暗示,OpenAI 研究人员认为,DeepSeek 利用了 OpenAI 模型的输出来训练 R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

  DeepSeek 并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1 并非通过复制 OpenAI 模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1 的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何 AI 生成内容。

  孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定 R1 没有在 OpenAI 的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek 的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

  孙欢说,对于研究人员而言,R1 仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即 ScienceAgentBench 基准测试中,孙欢及其同事发现,尽管 R1 的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

  坦斯托尔说,其他研究人员现在正尝试应用创建 R1 所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

  (本文由 AI 翻译,网易编辑负责校对)