国思软件 - 一封来自Transformer之父的分手信：8年了！世界需要新的AI架构

　　新智元报道

　　编辑：定慧

　　Transformer 之父「叛逃」？8 年前掀起 AI 革命的男人，如今嫌「自己孩子」太吵太卷！当资本狂飙、论文堆积如山，他却高喊：是时候放弃 Transformer，重新找回好奇心了。

　　Transformer「亲爹」跑路啦，说是烦透了「自己生的娃」！

　　还记得那篇 8 年前把「注意力机制」按在王座上的论文《Attention Is All You Need》吗？

　　共同作者 Llion Jones 最近在旧金山的 TEDAI 大会上当众「叛逃」：

　　AI 研究正越做越窄，而他本人，准备把对 Transformer 的爱好调成「低电量模式」。

　　海量资金与人才反而让研究圈挤进死胡同，大家只顾卷参数、抢发论文，没人敢探索新架构。

　　钱越多，点子越少？

　　这是一种资本与论文 KPI 的奇妙化学反应。

　　Jones 的主张很直白：前所未有的关注、资金和人才涌入之后，研究反而被「收窄」了。

　　为啥？

　　一边是投资人盯着回报，另一边是研究者担心被别人「抢先发」，人人都在拥挤赛道里拼命刷存在感。

　　结果呢？

　　赶工纸面成绩，挤牙膏式创新，和千人一面的论文标题。

　　他还搬出了课本里的老朋友：「探索 vs. 利用」。

　　现在的行业像把「利用」旋钮拧到 11 档：不停对同一架构打补丁、换皮肤、加大模型，再加点「我们又 SOTA 了」的调味包。

　　可真正的新路子，没人敢走，也没空走。

　　Jones 在会议上说：未来每个人都会失去工作，这是一件好事

　　一段历史复盘：RNN 年代的「徒手抛光」

　　Jones 提醒大家想想Transformer出现前的日子！

　　当时研究圈正对 RNN 做无尽小改小优，就像给一块石头抛光一样。

　　一旦 Transformer 登场，前面那堆抛光操作立刻变得像「给马车装了碳纤维尾翼」！

　　很精致，但很不对路，甚至变得完全无用，现在还有谁再谈论 RNN？

　　于是 Jones 担心我们是否又在重演历史：盯着一个 8 年前架构一直薅羊毛，薅到秃！

　　不停给马车打造各种好看的设备，却不知道拐弯看看路口是不是有飞船停靠。

　　Transformer 是怎么「长大」的？

　　不是KPI，是自由！

　　这就是Transformer 之父给出的答案。

　　最扎心的一段来自 Jones 的回忆：

　　那会儿他在谷歌做 Transformer，是「午饭唠嗑+白板乱画」式的自下而上的。

　　既没人规定必须发几篇论文，也没人拉着耳朵对着某个指标冲线。

　　先有自由，后有灵感，这话听上去朴素，但如今反而成了稀缺品。

　　再看现在：就算年薪上七位数，许多人也未必敢「瞎折腾」。

　　新岗位第一天，谁不想先稳住绩效？

　　于是低风险、可发表、见效快，自然优先级飙升。

　　想象力？创造力？

　　先等一等吧。

　　Sakana AI 的「反内卷」实验

　　Llion Jones 打算把探索旋钮拧回去。

　　Jones 后来去日本创建了 Sakana AI。

　　身为东京创业公司SakanaAI的 CTO，Jones 说他打算在实验室里复刻 Transformer 诞生前的「空气配方」：

　　少KPI，多好奇；少跟风，多自然启发。

　　他还给团队安利了一句研究格言：

　　You should only do the research that wouldn't happen if you weren't doing it.

　　你只应该做那些如果不是你来做就不会发生的研究。。

　　——来自工程师 Brian Cheung

　　在这种环境诞生成果的一个例子是 Sakana 的「连续思维机器」，它在神经网络中融入了类似大脑的同步机制。

　　一位提出该想法的员工告诉 Jones，在以前的雇主或学术岗位上，他会面临怀疑并受到不要浪费时间的压力。

　　在 Sakana，Jones 给了他一周时间去探索。

　　该项目取得了足够的成功，甚至在大型 AI 会议 NeurIPS 上获得了展示机会。

　　Jones 甚至表示，在招聘中，自由胜过报酬。

　　他谈到这种探索性环境时说：「这是吸引人才的一个非常非常好的方式。想想看，有才华、聪明、有野心的人，自然会去寻找这种环境。」

　　这波操作证明——自由比高薪更能抢人。

　　聪明人对自由的敏感度，往往高于对钱的感知。

　　「不是分手，是冷静期」：别把他当反对派

　　也许最具讽刺意味的是，Transformer 可能是自身成功的受害者。

　　当前技术如此强大且灵活……这阻止了我们去寻找更好的技术，如果当前技术更糟糕，会有更多人去寻找更好的，这很有道理。

　　Jones 并不是要把 Transformer 一脚踢下船。

　　他强调：现有技术上还有大量重要工作，未来几年也会继续创造价值。

　　只是以现在行业的人才与资源密度，我们完全「买得起」更多的探索。

　　Transformer 的强大，正在阻挡我们寻找「更好」的冲动。

　　如果现有技术差一点，大家反而更会到处找下一个惊喜。

　　把「军备竞赛」改成「开箱分享」

　　收尾时，Jones 把姿态放得很开：这不是「你死我活」的竞技场，是集体解谜。

　　如果大家能一起把探索旋钮拧大一点，把有意思的发现公开分享，那条通往下一次「Transformer 级」突破的路，可能近得超乎想象。

　　AI 掌权者（是 OpenAI、还是谷歌、还是其他？）是否会听从这一呼吁尚未可知。

　　但 Jones 提出了一个尖锐的提醒：下一次达到 Transformer 级别的突破可能就在拐角处。

　　毕竟，他在 Transformer 领域工作的时间比几乎所有人都要久。

　　他会知道何时该转向新方向。

　　Transformer 八子

　　Transformer 可以奠定了如今的 AI 时代，几乎所有基础模型都是以此为地基。

　　「Token by token，一个词接一个词」的简单输出模式在算力的加成下成为了新时代的 AI 魔法。

　　Transformer 催生了 ChatGPT、Gemini、Claude 等诸多前沿产品。

　　更重要的是，它让人类真正跨入了生成式 AI 时代。

　　人类和生成式 AI 的命运从 2017 年 6 月 12 日周一下午 17 点 57 分开始交汇。

　　Transformer 的影响依然还在继续！

　　到今天为止，这篇论文的被引次数已经到了 18 万+次！

　　让人不禁好奇，除了 Jones 外，其他几位作者都身在何处？

　　曾经联手打造出谷歌最强 Transformer 的「亲爹们」如今也已分道扬镳。

　　· Ashish Vaswani

　　Essential AI 联合创始人&CEO

　　称希望把 EssentialAI 做成“西方的 DeepSeek”（2025-06-17 采访）。

　　·Noam Shazeer

　　已回归 Google；Gemini 技术共同负责人

　　·Niki Parmar

　　Anthropic 技术人员。

　　此前与 Vaswani 共同创办 EssentialAI，早期为 Adept 联合创始人

　　2024 年底/2025 年初已加入 Anthropic。

　　EssentialAI 的联合创始人之一。

　　·Jakob Uszkoreit

　　Inceptive Nucleics 联合创始人&CEO

　　2025 年登台TEDAISanFrancisco分享「AI 如何绕开传统科学」的新思路；持续推进「生物软件」方向。

　　·Llion Jones

　　SakanaAI 联合创始人&CTO

　　外媒称SakanaAI 正洽谈新一轮融资，目标估值约25 亿美元。

　　采访中直言「已经受够了 Transformer」，转而主打「演化式模型合并」等新架构路线。

　　媒体采访介绍其在东京推进“自然启发”的集体智能路线。

　　·Aidan N.Gomez

　　Cohere 联合创始人&CEO

　　表示Cohere 计划很快启动 IPO（2025-10-21 多家媒体现场采访）。

　　公司估值升至约 70 亿美元。

　　经营数据：年化收入达 1 亿美元、发力企业私有部署与代理平台 North。

　　·Lukasz Kaiser

　　OpenAI 研究员

　　2025 年 10 月在OpenAI Forum发表「从 Transformer 到 Reasoners」的主题演讲。

　　·Illia Polosukhin

　　NEAR Protocol 联合创始人

　　主张 User-OwnedAI，推进「用户所有的 AI」与隐私保护 AI-原生产品。

　　在NVIDIA GTC 2025分享「机密、可验证 AI 计算」。

　　8 年前一篇不起眼的论文，却彻底开启了人类的生成式 AI 时代。

　　这个被忽视的小论文，彻底开启了 AI 的大时代。

　　它的故事还远远没有结束。

　　参考资料：

　　https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers

一封来自Transformer之父的分手信：8年了！世界需要新的AI架构

我们的产品

相关链接

关于我们

联系我们