OpenAI大佬爆料:本科生靠一篇博客杀进OpenAI!没博士,0篇论文

  新智元报道

  编辑:Aeneas

  他没博士、没论文,却靠公开改进论文和跑基准测试,直接打动大佬、入职 OpenAI!Noam Brown 亲证:行动力和开源项目,才是逆袭顶级 AI 实验室的真正通行证。

  就在今天,OpenAI 传奇研究员 、德扑 AI 之父 Noam Brown 的一篇文章被刷屏了。

  没有博士学位,没有研究背景,是否有可能在顶尖 AI 实验室找到工作?

  这听起来像天方夜谭,但这个世界上奇妙的地方就在于,这样的例子还真不少。

  比如,一个叫 Keller Jordan 的小哥,仅仅凭借一篇开源博客,就成功入职 OpenAI,成为一名机器学习研究员!

  是的,他没有写论文,而是将完整的研究过程、代码和实验结果在 GitHub 上完全开源。

  最后 Noam Brown 总结道:虽然如今开放研究的空间比以前小了,但是在已有论文的基础上做改进,依然是一个向实验室研究员证明自己能力的绝佳方式!

  这种做法,也会让对方更有信心,为你争取到一次面试机会。

  从 AI 审核做起,走向人生巅峰

  2020 年,Keller 毕业于 UCSD,获得数学和计算机的双学士学位。

  毕业时,他从未发表过任何一篇论文。

  第一份工作, 是在一家人工智能内容审核初创公司。

  有一天,他看到谷歌研究大牛 Behnam 最近发表的一篇论文,想到了一个改进思路,于是给 Behnam 发了一封邮件。

  Behnam 看到邮件后,同意指导这个年轻人。在没有人脉、没有背景的情况下,小哥就这样和大佬搭上了线。

  更神奇的来了,这段合作,最终促成了一篇 ICLR 论文。

  再后来,Keller 的一项表现亮眼的工作「NanoGPT speed run」,直接改变了全新的研究范式,这不仅让特斯拉 AI 负责人 Karpathy 称赞不已,还引起了 OpenAI 的注意。

  这不是一篇传统意义上的论文,却成为 Keller 命运的转折点。

  因为他所有的工作都有完整记录,而且成果可量化、进展清晰,所以,OpenAI 毫不犹豫地向他伸出了橄榄枝。

  让 Karpathy 直呼「干得漂亮」

  NanoGPT 是 Karpathy 开源的一个项目,是一个极简的轻量级 GPT 训练和微调框架。

  而 Keller 喜欢干的一件事,就是不断刷新 NanoGPT 的训练速度。为此,他不断尝试新的方法。

  在 2024 年 10 月,他跑出了一个成果,将训练 Transformer 模型的 token 效率提高了 3.8 倍!

  这也让他直接赢得 Karpathy 的盛赞。

  NanoGPT speedrun 的目标听起来非常简单:在固定模型规模(124M Transformer)和固定验证集损失目标(3.28 val loss)的前提下,用尽可能少的 token、尽可能短的时间完成训练。

  Keller 所做的,就是基于 Karpathy 的 nanoGPT/llm.c PyTorch 训练代码,将其改造为一个可复现、可量化、可对比的基准。

  最终,他让 Token 效率提升了 3.8 倍,而且从原本约 10B tokens 降低到 2.7B tokens,即可达到目标 loss。

  这意味着,这个改进可以被严格验证,是一个硬指标。

  让实验便宜到「人人能参与」

  而且,Keller 还非常有独创性。

  与很多动辄需要数十万、上百万算力成本的训练不同,他在设计这个 speedrun 时,有一个非常明确的原则:让尝试新想法的成本足够低。

  为此,他刻意做了几件事,比如让代码压缩到极简,只有 537 行;在8×H100 的全新环境下,让安装和运行的时间仅为 20 分钟;甚至单次的尝试成本,低至 8 美元。

  即使在今天的 AI 研究环境中,这也是一个极其罕见的设计选择。

  这就意味着,从此不是只有大实验室才能参与,所有个人研究者、学生、独立工程师都能快速验证想法,创新不会再被算力门槛挡住。

  被 OpenAI 注意到

  就这样,NanoGPT speedrun 成为了 Keller 逆袭之路上的关键一环。

  一切都表明,这个成果非常硬:代码、日志、实验都完全可复现;在指标上,完全无法作弊;甚至,还有开发社区的真实参与。

  甚至连验证方式都被设计得极其严谨:每一次 speedrun 的 log 文件中,都会包含完整代码副本。

  任何人想复现一个新纪录,只需调用 log 文件即可。

  Muon 横空出世

  而接下来,整件事情发展到了高潮。

  在 2024 年底,他设计的神经网络隐藏层的优化器 Muon 横空出世,直接凭卓越性能刷新了 NanoGPT 和 CIFAR-10 训练速度的世界纪录!

  Muon,是一种为神经网络 2D 参数隐藏层设计的优化器。它的核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过 Newton-Schulz 迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。

  它的实现简单高效,支持在 bf16 精度下稳定运行,显著降低了计算开销。

  比起 AdamW 优化器,Muon 在多个任务中,表现非常惊艳。

  虽然 AdamW 能让 GPT、LLaMA、Qwen 学得又稳又快,但随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW 的局限性开始显现。

  虽然还未成为主流通用优化器,但 Muon 的出现表明,它很可能是 AI 模型训练领域的一次重大基础创新。

  入职 OpenAI

  Muon 在开发者社区的影响力越来越大,也就在同时,Keller 于 2024 年 12 月,正式加入 OpenAI。

  有趣的是,Keller 在 2 月份表示,虽然 Muon 火了,也帮他进入了 OpenAI,但是他不会给 Muon 写一篇论文。

  在他看来,与其在 arXiv 发一篇大概率被「淹没」的论文,还不如继续老老实实地研究自己的优化器。

  毕竟在他看来,大多数优化器论文都是虚假的水文。

  这些人,都成功逆袭大公司

  此外,Noam Brown 还列举了其他成功的案例。

  比如被谷歌 DeepMind 发掘的 Sholto Douglas。

  他在X上十分低调,从未以一作身份发表过任何引人注目的论文,入行时间也只有一年半,然而,他却是 Gemini 成功的背后关键人物。

  还在麦肯锡工作时,Sholto 就逐渐确信 AI 会迎来爆发,于是开始在业余时间做自己的项目,还在 Jax 的 GitHub 上提出不少有洞见的问题。

  这些表现打动了 James Bradbury,最终被邀请到谷歌 DeepMind 去面试。

  Andy Jones 是一位半退休的量化分析师,在测试时计算还没火起来之前,他就写了一篇论文,毕竟了比较了扩大预训练规模和扩大测试时计算量的影响。

  这篇论文让人印象极其深刻,并是因为刷新了某个基准,而是做出了非常聪明的设计选择,自己编写了GPU加速的环境,并且进行了严谨细致的消融实验。

  最终,Andy Jones 入职 Anthropic。

  参考资料:

  https://x.com/polynoamial/status/2014084431062114744

  https://x.com/polynoamial/status/2014084432685326485

  https://x.com/polynoamial/status/2014084509575291163