统治AI十年的Transformer,要被亲爹亲手砸碎?

  新智元报道

  80 分钟的拳击式辩论!Transformer 联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。这是 AI 架构十年来最硬的一次正面交锋。统治 AI 黄金十年的架构,地基是不是已经松了?

  Transformer 凭什么统治 AI 这么久?

  长上下文、记忆、推理这些短板,新架构真能突破吗?

  所谓「后 Transformer」,到底是更强的记忆机制、更高效的序列建模,还是从训练到系统都得换一套?

  5 月 5 日,旧金山,Pathway 搞了场拳击擂台式的辩论赛。

  这不是比喻,是真擂台。

  一边是 Transformer 的共同发明人Łukasz Kaiser,另一边是主张「后 Transformer 时代」的新架构派。

  注意一个细节:注意力机制的两位联合发明人,「Transformer 八子」之一 Llion Jones,坐在了 Kaiser 的对立面。。

  话题就一个:下一代 AI 架构到底长什么样。

  现场坐满研究者、创业者和投资人。输赢不靠投票,靠「clapometer」——拍手计分器,谁掌声响谁赢。

  这是一场刀刀见红、指名道姓的硬碰硬。

  当裁判宣布比赛开始,统治了全球 AI 架构近十年的神话,第一次被它的缔造者亲自拉上了被告席进行自卫辩护。

  这场思想界的重量级对决,从 Transformer 的五大死穴开始。

  苦 Transformer 久矣

  五大死穴

  Łukasz Kaiser 的身份让这场辩论的分量直接拉满。

  他是 Transformer 的联合发明人。

  2017 年那篇改变整个 AI 格局的论文「Attention Is All You Need」,他是作者之一。之后他参与了 ChatGPT、GPT 系列和 o1 的实际工程开发。

  他是当事人。他今天坐在这里,是为自己的作品做辩护。

  对面的三位挑战者,来头同样不小。

  Llion Jones,Transformer 的另一位联合发明人,Sakana AI 联合创始人。

  Adrian Kosowski,Pathway 首席科学官,BDH 架构的发明人。

  Matthias Lechner,Liquid AI 首席技术官,MIT 液态神经网络的共同发明人。

  这本身就是技术史上极其罕见的画面。创造同一个东西的人,对它的未来产生了根本性分歧。

  Kaiser 开场用了一个类比。

  他说 Transformer 的注意力机制,就像图书管理员的卡片索引系统

  你走进图书馆,说出你要找的内容(query),管理员翻开卡片目录(key),找到对应的书架位置,把书取出来交给你(value)。

  简洁。高效。全局检索。

  但挑战者们要问的是:如果这个图书馆有一亿本书呢?每次查询都要翻遍所有卡片,这个系统还能撑住吗?

  这就是O(n²),悬在 Transformer 头上的达摩克利斯之剑。

  三位挑战者没有笼统地说「Transformer 不行了」。他们拆出了五个具体的、当前 Transformer 架构无法在设计层面解决的开放难题。

  每一个都直指要害。

  挑战者们最尖锐的隐喻,直指 Transformer 的记忆与持续学习缺陷:「土拨鼠之日」

  在电影《土拨鼠之日》中,主角每天醒来,世界都会重置,昨天的记忆荡然无存。

  目前,Transformer 也是如此。

  每一次推理(Forward Pass),它的权重(Weights)都是完全冻结的。

  哪怕你今天跟它聊了十个小时,它学到了绝妙的新知识,在下一次会话启动时,它依然是一个失忆的白痴。

  现在工业界为了解决这个问题,拼命往里塞 RAG(检索增强生成)、长上下文(KV Cache)。

  但这根本不是架构级的解法,而是用昂贵的算力在伤口上贴创可贴。

  五大死穴,每一个单拎出来都不是小事。合在一起,构成了一张完整的起诉书。

  但起诉书不等于判决书。

  Kaiser 的底牌

  你行你上,拿曲线说话

  面对五大攻击,Kaiser 没有一一辩驳。

  他没说O(n²)不是问题,没说灾难性遗忘不存在,没说 Transformer 完美无缺。

  他抛出了一句话,成了整场辩论的核心:

  除非 Post-Transformer 证明更好的 scaling 曲线,否则 Transformer 仍然是主流。

  这句话的杀伤力在于,它把举证责任推回了挑战者。

  什么是 scaling 曲线?

  简单说,就是「投入更多算力和数据,AI 能力提升多少」。

  Transformer 统治近十年,最核心的原因不是它没缺陷,而是它的 scaling 曲线至今没被任何架构超越。

  这是 OpenAI 敢砸几十亿美元训练 GPT、Anthropic 持续扩大 Claude 规模的底气。

  Kaiser 的逻辑极其清晰:

  你说 Transformer 有五个问题?我同意。

  但有问题的东西和应该被替换的东西之间,有一道鸿沟。跨过它,你需要的不是五篇论文,是一条更好的 scaling 曲线。

  然后,他展开了更具体的辩护,而且带着工程现场的铁锈味。

  并行性是硬道理。

  上周,在最新的 Nvidia 硬件上,Kaiser 重新实现了 Transformer 和几个老式 RNN,并做了对比。

  非常小的 GRU,比一个大得多的 Transformer 还要慢 50 倍。

  RNN 确实优美,但它的顺序执行特性在当前硬件上就是一场灾难。

  如果真存在一种更好的架构,你需要用 50 倍的时间去证明它——而大多数实验室没有这个耐心。

  十年的工程积累。

  不只是 GPU 优化,编译器、训练框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整个 AI 工程栈都围绕 Transformer 搭建。

  换架构意味着这一切都要重来。

  隐式的「持续学习」,早已发生。

  Kaiser 指出,Transformer 在大规模预训练后,前向传播中表现出的上下文学习(In-Context Learning),在数学上其实完美模拟了反向传播中的梯度下降。

  换句话说,你们说它不会学,它其实在以另一种方式偷偷地学。

  他的辩护不是「Transformer 永远是最优解」,而是「Transformer 现在是最优解,除非你证明不是」。

  然后他甩出一句让对面哑口无言的话:

  也许找到下一个架构的,恰恰会是 Transformer 本身——而不是你们。

  全场笑声。

  但大家都听出来了:这是认真的。

  AI:无人可挡的光明未来

  Kaiser 的结束陈词,没有说「Transformer 永远是最优解」。他说的是:「目前,Transformer 仍然赢。」

  「目前」这个词,是他留给挑战者的唯一缝隙。

  更微妙的是,他亲手交出了一件本属于自己阵营的武器。

  后 Transformer 阵营此前最大的短板,是「缺乏大算力的工程和硬件验证」——新架构跑得慢、没人愿意为它改芯片。但 Kaiser 自己承认,这道壁垒正在被瓦解:

  现在,AI Agent 已经学会了写极高难度的 CUDA 和 Triton 核函数。

  即便一个新架构最初运行慢 50 倍,你只需要把代码丢给 Agent,它就能在短时间内帮你优化出几乎能榨干 GPU 算力的专用内核。

  硬件彩票的壁垒,正在被智能体开发生态自己砸碎。

  这意味着,一旦有人在百万 Token、千万 Token 的极长上下文任务上,用 Post-Transformer 架构跑出一条更漂亮的困惑度曲线,哪怕只有一点点优势,也会在 scaling 的放大镜下,形成对旧帝国的致命一击。

  Kaiser 甚至主动提议:应该建立一个统一的测试标准——用困惑度衡量所有架构在同等条件下的学习能力。

  「我们应该在这件事上达成共识,然后各自去证明自己的架构更好。」

  这句话的潜台词是:挑战赛正式开始。

  而 Jones 的最后一句话更直接:

  今天我没有得到任何理由让我怀疑自己的信念:有更好的东西存在。当那个突破到来,我们所有人都会进入后 Transformer 时代,Łukasz 也不例外——因为他届时别无选择。

  这场「拳击赛」看似戏谑,但它的胜负直接决定了 Claude、ChatGPT 等硅谷双雄的底层地基是否需要被全部推倒重建。

  如果后 Transformer(Post-Transformer)阵营拥有更优越的 Scaling Law(缩放定律)曲线,整个人类通往 AGI 的物理路线图都将被改写。

  参考资料:

  https://x.com/probnstat/status/2057522470760914957?s=20

  https://www.youtube.com/watch?v=hCjoMLuCuLQ

  编辑:大卫