英伟达年度「最危险」论文!AI自繁衍代码,无限刷级进化

  新智元报道

  年度最危险论文发了!英伟达打破 20 年封印,让 AI 亲手造出更狠的「考官」淘汰自己。无休止的自我进化一旦开启,2028 年 ASI 降临真不是玩笑。

  Anthropic 彻底「RSI 上头」了!

  联合创始人 Jack Clark 抛出惊人预测,到 2028 年底,一个高度自主进化的 AI 就会诞生。

  这个概率,是 60%!

  在人们还在为「2028 RSI 能否实现」争论不休时,剑桥大学、英伟达等机构联手,丢出了一篇重磅论文——

  「红皇后哥德尔机器」(Red Queen Gödel Machine)

  它的运作,宛如一场残酷的 AI 生存游戏:

  AI 自己编写新的学习算法,并将其投入沙盒进行试炼。失败的直接抹杀,成功的保留下来。

  接着,幸存者们开启下一轮的自我进化与繁衍。

  论文地址:https://arxiv.org/pdf/2606.26294

  但真正令人毛骨悚然的,是 AI 随后展现出的「顿悟」:它意识到,想要不断变强,就必须面对更加苛刻的试炼。

  于是,AI 开始主动「进化」自己的考官。

  它亲手打造出更严苛的裁判,来评判自己写出的更高级的代码。

  这套机制,将 AI 死死锁定在一个无休止的、疯狂自我迭代的 RSI 里。

  看完这 37 页论文,许多人倒吸一口凉气,「这绝对是年度最危险的 AI 论文」!

  2028 年 RSI 自进化

  把预言写成代码

  2003 年,德国科学家Jürgen Schmidhuber 曾构想过一种机器, 名为「哥德尔机」(Gödel Machine)。

  它的设定堪称完美:一台能证明自己的改进有益、然后改写自身代码的机器。

  一旦造出来,它就能不断自我升级,越变越强,没有上限。

  不过,「哥德尔机」有一个致命的「门槛」——

  在执行任何一行自我修改的代码前,它必须先从数学上严格证明:这次改动一定是有益的。

  但在现实中,这几乎是个不可能完成的任务,所需的算力堪称「黑洞」。

  于是,在之后整整 20 年里,哥德尔机只能躺在论文里,当一个理论上的天花板,一个谁都够不着的思想实验。

  近两年,学界绕开了证明这道坎。

  达尔文哥德尔机(DGM) 、赫胥黎哥德尔机(HGM)干脆抛弃数学证明,改用进化——

  让 AI「繁殖」出大量带突变的代码变体,扔进沙盒里跑分,失败的淘汰,成功的保留,幸存者继续繁衍。

  AI 跨越了最后一步,开始字面意义上「进化」自己。

  但这些方法都还有一个共同的盲点——它们的考官是死的。

  不管 AI 怎么进化,给它打分的那个评判标准、那个 benchmark、那个验证器,始终被钉死在循环之外,一动不动。

  这恰恰违背了进化最核心的一条规律:

  物种从不是在一个静止的环境里优化自己,而是和不断变化的环境一起改变。

  红皇后哥德尔机(RQGM),要破的就是这道盲点。

  「红皇后」真正杀招:让 AI 造出考官

  「红皇后」这个名字,来自生物学家 Van Valen 1973 年提出的「红皇后假说」——

  你必须拼命奔跑,才能停在原地,因为你的对手也在进化。

  RQGM 干的事,正是把这句话写成了算法:让考官(评估器)和选手(任务智能体)一起进化。

  这是整篇论文,最让人头皮发麻的地方。

  这套精巧的机制叫「受控效用进化」(controlled utility evolution):

  • 整个搜索被切成一个个 epoch;

  • 在每个 epoch 内,评估器(考官)是冻结的,给所有考生打分,保证信号稳定;

  • 只有在 epoch 的边界,才允许换考官,且新考官必须在一份留出的「基准真相」锚点数据上,统计意义上打赢老考官,才能上位;

  • 一旦换人,系统立刻执行「选择性擦除」:只丢掉那些由被换掉的考官打过的分,其余证据全部保留。

  换句话说,它既要狂奔进化,又要每一步都站得住脚。

  真的奏效了,AI 自己改代码

  光说机制太抽象,不如直接看战绩。

  第一战,写代码(Polyglot)。

  RQGM 给写代码的 Agent 配了一个"代码评审员"当陪练。

  结果,在留出测试集上,通过率从此前 SOTA 的 69.9% 提到了 71.7%。

  更狠的是,它达到这个成绩,比对手少烧了 1.35 到 1.72 倍的 token。因为那个评审员只需要查一次,比反复多轮跑测试便宜太多了。

  第二战,写论文。

  这是个没有标准答案的领域,论文好不好,没法机器自动判分。

  RQGM 让写手和它的评审一起进化,结果论文在一个固定评审小组里的接收率,从前 SOTA 的 21.8%,直接飙到 40.5%。

  第三战,奥赛级数学证明。

  它进化出的「评分官」(grader),比静态基线更准、搜索成本还低了 3 倍;

  进化出的「证明选手」,拿到了最高的平均分。

  但全篇最封神的一笔,是它把 AI 的一个老毛病给治好了。LLM 当裁判,有个出了名的毛病:偏爱 AI 生成的内容。

  论文里那个最强的基线审稿人,接受 AI 写的论文的概率,是接受人类论文的最高 1.91 倍。

  RQGM 怎么治?它在 epoch 边界上,把固定评审之前放过的 AI 论文捞出来,组成一个「对抗样本池」,然后专门奖励那些能把这些 AI 论文揪出来打回去的新评审。

  进化几轮之后,最终的评审对 AI 和人类一视同仁,还保住了 80% 的真值准确率。

  当 AI 学会评判自己

  就在同一个夏天,Anthropic 联创 Jack Clark 押下重注:60% 的概率,2028 年底前,AI 将能亲手缔造出更强大的自己。

  曾将「哥德尔机」死死困住 20 年的那道高墙,名为「证明」。

  而「红皇后机」将其唤醒,只用了最残酷的一招:无休止的繁衍、淘汰、再繁衍。

  当一个 AI 开始亲自为自己设计最严苛的考官,在疯狂的递归中将自己逼向极限,我们所面对的,将是一个开始自行定义「何为智慧」的全新物种。

  当那一天到来,ASI 绝不会敲门预告。

  它只会默默造出那个唯一有资格评判它的裁判,然后,从容地走入考场。

  预言只负责指明终点,代码才负责抵达。

  而现在,这段令人窒息的距离,正被 AI 自己,以几何级数缩短。

  参考资料:

  https://x.com/HowToPrompt__/status/2070824205663273175?s=20

  https://x.com/kimmonismus/status/2070968241548120168

  编辑:桃子