国思软件 - 4o-mini华人领队也离职了，这次不怪小扎

　　明敏发自凹非寺

　　量子位 | 公众号 QbitAI

　　哦豁，OpenAI 奥特曼又痛失一员大将。

　　Kevin Lu，领导 4o-mini 发布，并参与 o1-mini、o3 发布，主要研究强化学习、小模型和合成数据。

　　下一站是 Thinking Machine Lab，OpenAI 前 CTO Mira Murati 出走后新创立的 AI 公司，估值已达 120 亿美元。

　　不完全统计，Thinking Machine Lab 已经集结数位 OpenAI 前核心研究员，包括 John Schulman、Barrett Zoph、翁荔等。

　　从 Meta 到 OpenAI，再离开

　　Kevin Lu 毕业于 UC 伯克利，主要研究强化学习和离线序列数据建模。

　　毕业后先后加入 Hudson River Trading 和 Meta，2024 年 3 月加入 OpenAI。

　　入职 3 个月后领导团队完成了 4o-mini，这是一个多模态推理小模型。支持图文输入、长上下文，适合复杂任务；同时速度更快、成本更低。

　　此外还参与了 o1-mini 和 o3 的模型开发。主要擅长的领域应该是小模型和强化学习。

　　其引用量最高的一篇论文是《决策 Transformer：通过序列建模进行强化学习》，引用量 2254。

　　这篇论文发表于 2021 年，研究团队集结了 UC 伯克利、Meta AI、UCLA、OpenAI 和 Google Brain。

　　这是一个将强化学习问题视为条件序列建模的架构，通过将自回归模型基于期望回报（奖励）、过去的状态和动作进行条件化，决策 Transformer 能够生成期望回报的未来动作。

　　近期，Kevin Lu 的一篇与他主要研究领域相关的博客还有点出圈：互联网才是唯一重要的技术。

　　他认为现在对 Transformer 架构的关注有点过高了，真正重要的还是数据。研究者们应该关注如何从互联网这样的数据源中学习和预测，因为互联网提供了大量序列相关数据，非常适合进行“下一个 token 预测”。

在少量数据的环境里，Transformer 将失去价值。

　　以及现在强化学习难以实现从 GPT-1 到 GPT-4 般的重大突破，应该停止进行强化学习研究，将注意力放在产品开发上。

　　强化学习的未来可能涉及到新的数据源和奖励机制创新，这可能是 AI 研究的新方向。

　　刚刚完成 20 亿美元种子轮融资

　　Kevin Lu 的下一站 Thinking Machine Lab，也是 AI 领域近期讨论度最高的初创公司之一。

　　它由 OpenAI 前 CTO Mira Murati 联合多位 OpenAI 前成员成立。

　　除了 Mira 本人外，团队核心成员已经覆盖 AI 领域目前的主要方向：

　　以及新加入的 Kevin Lu，擅长小模型和强化学习。

　　根据 LinkedIn 信息，Kevin Lu 已于 7 月正式从 OpenAI 离职。几乎同时，Thinking Machine Lab 完成破纪录种子轮融资，估值飙升到 120 亿美元。

　　而且在最近激烈的硅谷人才大战中，Thinking Machine Lab 独善其身，十几名成员无人接受小扎 offer，10 亿美元薪酬都拒绝。

　　不过 Thinking Machine Lab 目前还未公开任何成果，倒是让人更加期待了。

4o-mini华人领队也离职了，这次不怪小扎