一封来自Transformer之父的分手信:8年了!世界需要新的AI架构

  新智元报道

  编辑:定慧

  Transformer 之父「叛逃」?8 年前掀起 AI 革命的男人,如今嫌「自己孩子」太吵太卷!当资本狂飙、论文堆积如山,他却高喊:是时候放弃 Transformer,重新找回好奇心了。

  Transformer「亲爹」跑路啦,说是烦透了「自己生的娃」!

  还记得那篇 8 年前把「注意力机制」按在王座上的论文《Attention Is All You Need》吗?

  共同作者 Llion Jones 最近在旧金山的 TEDAI 大会上当众「叛逃」:

  AI 研究正越做越窄,而他本人,准备把对 Transformer 的爱好调成「低电量模式」。

  海量资金与人才反而让研究圈挤进死胡同,大家只顾卷参数、抢发论文,没人敢探索新架构。

  钱越多,点子越少?

  这是一种资本与论文 KPI 的奇妙化学反应。

  Jones 的主张很直白:前所未有的关注、资金和人才涌入之后,研究反而被「收窄」了。

  为啥?

  一边是投资人盯着回报,另一边是研究者担心被别人「抢先发」,人人都在拥挤赛道里拼命刷存在感。

  结果呢?

  赶工纸面成绩,挤牙膏式创新,和千人一面的论文标题。

  他还搬出了课本里的老朋友:「探索 vs. 利用」

  现在的行业像把「利用」旋钮拧到 11 档:不停对同一架构打补丁、换皮肤、加大模型,再加点「我们又 SOTA 了」的调味包。

  可真正的新路子,没人敢走,也没空走。

  Jones 在会议上说:未来每个人都会失去工作,这是一件好事

  一段历史复盘:RNN 年代的「徒手抛光」

  Jones 提醒大家想想Transformer出现前的日子!

  当时研究圈正对 RNN 做无尽小改小优,就像给一块石头抛光一样。

  一旦 Transformer 登场,前面那堆抛光操作立刻变得像「给马车装了碳纤维尾翼」!

  很精致,但很不对路,甚至变得完全无用,现在还有谁再谈论 RNN?

  于是 Jones 担心我们是否又在重演历史:盯着一个 8 年前架构一直薅羊毛,薅到秃!

  不停给马车打造各种好看的设备,却不知道拐弯看看路口是不是有飞船停靠。

  Transformer 是怎么「长大」的?

  不是KPI,是自由!

  这就是Transformer 之父给出的答案。

  最扎心的一段来自 Jones 的回忆:

  那会儿他在谷歌做 Transformer,是「午饭唠嗑+白板乱画」式的自下而上的。

  既没人规定必须发几篇论文,也没人拉着耳朵对着某个指标冲线。

  先有自由,后有灵感,这话听上去朴素,但如今反而成了稀缺品。

  再看现在:就算年薪上七位数,许多人也未必敢「瞎折腾」。

  新岗位第一天,谁不想先稳住绩效?

  于是风险、可发表、见效快,自然优先级飙升。

  想象力?创造力?

  先等一等吧。

  Sakana AI 的「反内卷」实验

  Llion Jones 打算把探索旋钮拧回去。

  Jones 后来去日本创建了 Sakana AI。

  身为东京创业公司SakanaAI的 CTO,Jones 说他打算在实验室里复刻 Transformer 诞生前的「空气配方」:

  KPI,多好奇;少跟风,多自然启发。

  他还给团队安利了一句研究格言:

  You should only do the research that wouldn't happen if you weren't doing it.

  你只应该做那些如果不是你来做就不会发生的研究。。

  ——来自工程师 Brian Cheung

  在这种环境诞生成果的一个例子是 Sakana 的「连续思维机器」,它在神经网络中融入了类似大脑的同步机制。

  一位提出该想法的员工告诉 Jones,在以前的雇主或学术岗位上,他会面临怀疑并受到不要浪费时间的压力。

  在 Sakana,Jones 给了他一周时间去探索。

  该项目取得了足够的成功,甚至在大型 AI 会议 NeurIPS 上获得了展示机会。

  Jones 甚至表示,在招聘中,自由胜过报酬

  他谈到这种探索性环境时说:「这是吸引人才的一个非常非常好的方式。想想看,有才华、聪明、有野心的人,自然会去寻找这种环境。」

  这波操作证明——自由比高薪更能抢人。

  聪明人对自由的敏感度,往往高于对钱的感知。

  「不是分手,是冷静期」:别把他当反对派

  也许最具讽刺意味的是,Transformer 可能是自身成功的受害者。

  当前技术如此强大且灵活……这阻止了我们去寻找更好的技术,如果当前技术更糟糕,会有更多人去寻找更好的,这很有道理。

  Jones 并不是要把 Transformer 一脚踢下船。

  他强调:现有技术上还有大量重要工作,未来几年也会继续创造价值。

  只是以现在行业的人才与资源密度,我们完全「买得起」更多的探索

  Transformer 的强大,正在阻挡我们寻找「更好」的冲动

  如果现有技术差一点,大家反而更会到处找下一个惊喜。

  把「军备竞赛」改成「开箱分享」

  收尾时,Jones 把姿态放得很开:这不是「你死我活」的竞技场,是集体解谜

  如果大家能一起把探索旋钮拧大一点,把有意思的发现公开分享,那条通往下一次「Transformer 级」突破的路,可能近得超乎想象

  AI 掌权者(是 OpenAI、还是谷歌、还是其他?)是否会听从这一呼吁尚未可知。

  但 Jones 提出了一个尖锐的提醒:下一次达到 Transformer 级别的突破可能就在拐角处。

  毕竟,他在 Transformer 领域工作的时间比几乎所有人都要久。

  他会知道何时该转向新方向。

  Transformer 八子

  Transformer 可以奠定了如今的 AI 时代,几乎所有基础模型都是以此为地基。

  「Token by token,一个词接一个词」的简单输出模式在算力的加成下成为了新时代的 AI 魔法。

  Transformer 催生了 ChatGPT、Gemini、Claude 等诸多前沿产品。

  更重要的是,它让人类真正跨入了生成式 AI 时代。

  人类和生成式 AI 的命运从 2017 年 6 月 12 日周一下午 17 点 57 分开始交汇。

  Transformer 的影响依然还在继续!

  到今天为止,这篇论文的被引次数已经到了 18 万+次!

  让人不禁好奇,除了 Jones 外,其他几位作者都身在何处?

  曾经联手打造出谷歌最强 Transformer 的「亲爹们」如今也已分道扬镳。

  · Ashish Vaswani

  Essential AI 联合创始人&CEO

  称希望把 EssentialAI 做成“西方的 DeepSeek”(2025-06-17 采访)。

  ·Noam Shazeer

  已回归 Google;Gemini 技术共同负责人

  ·Niki Parmar

  Anthropic 技术人员。

  此前与 Vaswani 共同创办 EssentialAI,早期为 Adept 联合创始人

  2024 年底/2025 年初已加入 Anthropic。

  EssentialAI 的联合创始人之一。

  ·Jakob Uszkoreit

  Inceptive Nucleics 联合创始人&CEO

  2025 年登台TEDAISanFrancisco分享「AI 如何绕开传统科学」的新思路;持续推进「生物软件」方向。

  ·Llion Jones

  SakanaAI 联合创始人&CTO

  外媒称SakanaAI 正洽谈新一轮融资,目标估值约25 亿美元

  采访中直言「已经受够了 Transformer」,转而主打「演化式模型合并」等新架构路线。

  媒体采访介绍其在东京推进“自然启发”的集体智能路线。

  ·Aidan N.Gomez

  Cohere 联合创始人&CEO

  表示Cohere 计划很快启动 IPO(2025-10-21 多家媒体现场采访)。

  公司估值升至约 70 亿美元

  经营数据:年化收入达 1 亿美元、发力企业私有部署与代理平台 North。

  ·Lukasz Kaiser

  OpenAI 研究员

  2025 年 10 月在OpenAI Forum发表「从 Transformer 到 Reasoners」的主题演讲。

  ·Illia Polosukhin

  NEAR Protocol 联合创始人

  主张 User-OwnedAI,推进「用户所有的 AI」与隐私保护 AI-原生产品。

  在NVIDIA GTC 2025分享「机密、可验证 AI 计算」。

  8 年前一篇不起眼的论文,却彻底开启了人类的生成式 AI 时代。

  这个被忽视的小论文,彻底开启了 AI 的大时代。

  它的故事还远远没有结束。

  参考资料:

  https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers