Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

  新智元报道

  编辑:KingHZ

  Transformer 曾是 AI 革命的巅峰之作,但其发明者 Llion Jones 警告:它并非终点。就像 RNN 被取代一样,当前无数微调研究可能只是局部优化,而真正的 AGI 突破或藏在生物启发的全新架构中。

  Transformer 是 AI 的终点吗?

  不是,绝对不是。

  那 Scaling 是唯一通向 AGI 的路径吗?

  在 Transformer 架构上研究最久的人,告诉你:不是。

  Sakana AI 的创始人、研究科学家 Llion Jones,和其他 7 位合著者,一起发明了 Transformer。

  除了那七位共同作者,没有人比他在 Transformer 上的研究更久。

  尽管如此,去年,他做出了一个重要决定:大幅减少自己在 Transformer 上的研究投入。

  不是因为这个领域没有新鲜事,而是因为它已经被挤得水泄不通。

  他直言,他成了自己成功的受害者:

  我不认为 Transformer 就是终点,也不相信我们只需要继续无限扩大规模。

  某一天,我们会再次迎来突破,然后回头发现,现在很多研究其实在白白浪费时间。

  Transformer 或重演 RNN 的悲剧

  在 Transformer 出现之前,RNN 是主流。

  RNN 的确是 AI 历史上的重大突破。

  突然间,所有人都开始致力于改进 RNN。

  但结果总是对同一架构做些微调,比如把门控单元换个位置,将语言建模的性能提升到 1.26、1.25 比特每字符。

  在 Transformer 出现后,当我们把非常深的仅解码器 Transformer 应用于同一任务时,立刻就达到了 1.1 比特/字符。

  于是,所有关于 RNN 的研究突然之间显得白费了。

  而现在的论文,似乎又回到了老路子:在同一个架构上,做无数微小的改动——比如调整 normalization 层的位置,或略微改良训练方式。

  2020 年,时任谷歌 DeepMind 的研究员 Sarah Hooker 提出了「硬件彩票」:

  通往 AGI 的道路不止一条, 深度神经网络刚好碰上了 GPU 这样的硬件彩票。

  论文链接:https://hardwarelottery.github.io/

  「硬件彩票」这一术语,描述了某种研究思路之所以胜出,是因为它恰好契合现有的软件和硬件条件,而非因为该思路在所有备选研究方向中具有普遍优越性。

  而 Llion Jones 则认为,Transformer 是一种架构彩票,而业界恐怕重蹈 RNN 的覆辙。

  哪怕已经有一些架构在论文中表现得比 Transformer 还好。但问题在于,新架构还不足够好到让整个行业放弃 Transformer。

  原因很现实:大家对 Transformer 的理解已经非常成熟,训练方法、微调方式、配套软件工具一应俱全。

  你要大家从头换一套,除非新架构好到「碾压式胜出」,否则不可能。

  Transformer 取代 RNN,是因为差距大到无法忽视。

  深度学习的兴起也是一样。曾经大家还相信符号主义更靠谱,直到神经网络在图像识别上展现出压倒性的优势。

  Llion Jones 认为 Transformer 太成功了,反而让大家陷入了「陷阱」:

  这就像有个巨大的「重力井」,所有尝试离开的新方法都会被拉回来。

  哪怕你真的做出了一个效果更好的新架构,只要 OpenAI 再把 Transformer 扩大十倍,那你的成果就被比下去了。

  现在的 LLM 并非通用智能

  Llion Jones 进一步指出,目前的大语言模型并非通用智能,呈现出「锯齿状智能」(jagged intelligence)的特性。

  也就是说,它们能在某些任务上表现得像天才一样,但转眼就能犯出低级错误,让人出戏。

  它刚才还解出了一个博士级的问题,下一秒却说出一个连小学生都不会错的答案,这种反差非常刺眼。

  他认为,这其实揭示了当前架构中某种根本性的问题。

  问题在于,它们太「万金油」了。

  你可以让它们做任何事,只要训练足、调参准。

  但正因为这样,我们反而忽视了关键问题──「有没有更好的方式来表示知识、思考问题」。

  现在,大家把所有东西都往 Transformer 里堆,把它当成万用工具来用,缺什么功能,就往上面硬加模块。

  我们明明知道要有不确定性建模、要有自适应计算能力,但我们却选择把这些特性外挂上去,而不是从架构本身去重新思考。

  为了逃脱这个循环,Jones 在 2025 年初大幅减少 Transformer 相关研究,转向更具探索性的方向。

  他和 Sakana AI 的同事 Luke Darlow 等人,借鉴生物学和自然启发,设计了连续思维机(Continuous Thought Machines,CTM)。

  传送门:https://sakana.ai/ctm/

  这不是天马行空的发明,而是对大脑运作的简化模拟。

  大脑里的神经元不是静态的开关,而是通过同步振荡来传递信息。

  CTM 捕捉了这个精髓:它用神经动态作为核心表示,让模型在「内部思考维度」上逐步展开计算。

  他说,「我们并没有追求完全生物学可行性,因为大脑并不是靠有线方式让所有神经元同步的。但这种思路带来了全新的研究可能。」

  重要的是,他们在做这项研究时,并没有任何学术圈常见的「抢发压力」。

  因为没人做这个方向。他们有充分的时间去打磨这篇论文,把研究做实,把对照实验做足。

  他希望这项研究能成为一个「示范案例」,鼓励其他研究者去尝试那些看似风险高、但更可能通向下一个大突破的研究方向。

  后人哀之而不鉴之

  这是近期 AI 领域最坦诚的言论之一。

  Llion Jones 承认,当前多数研究可能只是在局部最优解上修修补补,而真正的突破或许在完全不同的方向。

  他对此深有体会——毕竟他曾亲手让上一代研究者的成果黯然失色。

  令人不安的是:如果他是对的,那么所有埋头改进 Transformer 变体的人都在浪费时间。

  所有混合专家模型、所有架构微调、所有注意力机制变体——都可能在新范式出现时瞬间过时。

  但陷阱在于:除非有人真正突破,否则你永远无法确定自己是否困在局部最优里。

  身在局中时,一切看似都是进步。直到 Transformer 出现前,RNN 的改进不也看起来势不可挡吗?

  同样, Ilya 近期也评论道,仅靠 Scaling 当前架构并不足以实现 AGI:

  Scaling 时代的一个后果是:Scaling 吸走了房间里所有的氧气。

  正因如此,所有人开始做同样的事。我们走到了今天这个局面——公司数量多于创新电子的世界。

  那么该如何抉择?

  Llion Jones 并未声称知道未来方向,只是坦言 Transformer 可能不是长期答案。这很诚实,却缺乏可操作性。

  这个难题在于:每次范式转移,在事后看来都像是徒劳,但在当时却是必要的探索。我们无法跳过这个阶段,只能祈祷有人能更快找到出口。

  Transformer 已死?DeepMind 正在押注另一条 AGI 路线

  谷歌祭出 Transformer 杀手,8 年首次大突破!掌门人划出 AGI 死线

  终结 Transformer 统治!清华姚班校友出手,剑指 AI「灾难性遗忘」

  一封来自 Transformer 之父的分手信:8 年了!世界需要新的 AI 架构

  参考资料:

  https://www.youtube.com/watch?v=DtePicx_kFY&t=1s