新智元报道
编辑:静音好困
OpenAI 又有新人加入!来自 DeepMind 的 3 名顶级工程师兼 ViT 共同一作,来自 Midjourney 的全能工程师兼高中辍学神童——人才大战从未止息……
就在昨天,OpenAI 从谷歌 DeepMind 挖走了 3 名顶级工程师!
3 名工程师分别是 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai,都在X上官宣了这条消息。
据悉,加入 OpenAI 后,他们将致力于多模态人工智能的研发。
他们曾是近年来最先进视觉方法(SOTA)以及开源模型(如 ViT、SigLIP 和 PaliGemma)的幕后功臣。
三人之间的关系也非常密切,学术合作颇多。
其中,他们于 2021 年作为共同一作发布的论文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」,被引用量高达 4.9 万。
该论文提出了 Vision Transformer (ViT) 。当在大规模数据上进行预训练,并迁移到多个中型或小型图像识别基准(如 ImageNet、CIFAR-100、VTAB 等)上时,ViT 相较于最先进的卷积网络能够取得优异的结果,同时所需的训练计算资源显著更少。
研究证明了,在视觉领域中,对卷积网络的依赖并非必要,一个直接应用于图像块序列的纯 Transformer 在图像分类任务中也能表现出色。
在此之前,2020 年他们还曾一起提出了神经网络架构 Big Transfer (BiT),也是一次视觉模型扩展的突破。
ViT 之后,他们在神经网络架构方面的探索也没有止步,分别在 2021 年和 2023 年提出了 MLP-Mixer 和 FlexiViT。
此外,他们三人还一起参与开发了开放权重模型 SigLIP 和 PaliGemma。
2023 年,他们一起研究提出了一种用于语言-图像预训练 (Language-Image Pre-training, SigLIP) 的简单成对 Sigmoid 损失函数,发现在 CLIP 中使用 Sigmoid 替代 SoftMax 更具可扩展性。
结合锁定图像微调 (Locked-image Tuning),他们使用仅四块 TPUv4 芯片在两天内训练出一个 SigLiT 模型,其在 ImageNet 零样本分类任务中达到了 84.5% 的准确率。
PaliGemma 则是今年 7 月提出的。PaliGemma 是一个开源的视觉语言模型(VLM),基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型构建,在各种开放世界任务中表现强劲。
值得注意的是,Xiaohua Zhai(翟晓华)是一名华人,本科毕业于南京大学,且曾于 2014 年获得了北京大学计算机科学博士学位。
在谷歌 DeepMind 时,他担任高级研究科学家兼经理,并领导着苏黎世的一支多模态研究团队,专注于多模态数据(如 WebLI)、开放权重模型(SigLIP、PaliGemma)以及包容性(CultureDiversity)等领域的研究。
至于 Alexander Kolesnikov,他自 2018 年起,一直在谷歌工作,并担任高级研究科学家。
在此之前,他在奥地利科技研究所(ISTA)攻读博士学位,导师是 Christoph Lampert,当时的研究方向是弱监督学习和生成图像模型。
他的成就包括训练了多个最先进(SOTA)的视觉模型(2019、2020 和 2021 年的 ImageNet SOTA),以及此前提到的开放权重模型 SigLIP 和 PaliGemma、神经网络架构方面的 BiT、ViT、MLP-Mixer 和 FlexiViT。
最近,他的研究重点是统一、简化并扩展多模态深度学习,如 UViM、带奖励的视觉模型(Vision with Rewards)和 JetFormer。
他还热衷于编写灵活且高性能的研究基础架构(尤其是在 JAX 中)。其中很大一部分是开源的,例如 big_vision。
Lucas Beyer 则很有趣,在自己的博客上自诩为「一个自学成才的黑客和科学家」。
据他介绍,他已经在顶会上发表了相当多的论文。迄今为止,他一共发表了 50 多篇论文。
他也是在 2018 年加入了谷歌。
高中辍学,Midjourney 工程师加入 OpenAI
五年前,Gabriel Petersson 还是个瑞典的高中辍学生,几乎没有任何工程经验便加入了一家创业公司。
而今天,他正式成为了 OpenAI 的研究科学家,致力于用 Sora 来构建 AGI。
在推文中,Petersson 写道,当下有众多公司都在争相「开发」AI 模型,但是这种模仿和追赶是非常容易的。
相比之下,全世界只有一家公司在提升模型的智能水平方面取得了突破性进展。
目前,AI 在理解现实世界方面仍面临诸多挑战。
为应对这一问题,我们可以为 AI 构建可探索的场景,让它从最基础的像素数据中重新发现物理定律,同时为类人机器人打造用于学习的模拟环境。
Petersson 最后表示,他将与一群他所遇到过的最杰出人才携手,共同攻克这些关键难题。
纵观 Petersson 的经历,不得不感慨他真是神童一个。
14 岁就非常有商业头脑。那一年他开始从事宝可梦卡片交易,2 年间总利润超过 2 万美元,保持很高的利润率。
他制作的《我的世界》(Minecraft)延时摄影视频获得数百万次播放量;还运营《我的世界》游戏服务器,与内容创作者合作,并尝试将自建的开放世界角色扮演游戏服务器商业化。
17、18 岁的时候,Petersson 从高中辍学,作为创始团队成员加入 Depict.ai(YC 2020 夏季批次),该公司现已发展到约 40 名员工。
期间,他技术销售两手抓:既运用 CNN 和 NLP 技术开发了首个产品推荐系统,又负责 B2B 销售,通过上门拜访成功签约多个客户。
在他 18、19 岁这两年,恰逢新冠疫情,Petersson 开发了一个洗手液比价网站,首周就实现了 2.2 万美元收入。
后来,在 19-20 岁期间,Petersson 还被聘为瑞典最大的云厨房企业 Curb Food 的临时首席技术官,公司当时有 80 名员工。并且他在这个公司从零开始组建了 7 人的工程师团队,成功将厨房管理系统推向生产环境。
后来的两年,Petersson 作为 Dataland(YC 孵化项目)的创始工程师,打造了一款面向开发者的高性能 Airtable 替代产品——能在几秒内加载数十万行数据;开发了业界性能最强的网页表格之一,可以流畅处理数十万行数据的筛选和排序,且保持稳定帧率。
另外,他还用 Rust 语言结合 Skia 图形引擎开发了一个实验性网页表格。即使在 CPU 降速 6 倍的情况下,仍能保持 60 帧的滚动和渲染速度。
演示链接:https://www.loom.com/share/540ad426c22c4db192293babfc9c7fdf
22 岁之后,Petersson 就一直在 Midjourney 担任软件工程师,负责 /rank、/surveys 和 /ideas 等页面的开发。工作涵盖从前端到数据库再到网络的全栈开发。
参考资料: