新智元报道
编辑:KingHZ
OpenAI 宫变之日,奥特曼突遭解雇,两位关键人物 Jakub Pachocki 与 Szymon Sidor 挺身而出、力助奥特曼翻盘!而随着 AI 能力的不断增强,OpenAI 波兰双雄对技术进步与安全问题的双重关注,将引领 AI 走向更有意义的发展。
OpenAI 早期,据说午餐时大家太紧张,以至于不敢说话,现在的氛围轻松许多。
甚至 OpenAI 早期有个「波兰帮」,比如联合创始人 Wojciech Zaremba(下图左),后来在编程竞赛击败 ChatGPT 的信息学奥赛金牌选手 Przemysław Debiak(下图右)。
还有两位黄金级搭档 Jakub Pachocki 和 Szymon Sidor:
现首席科学家 Jakub Pachocki,奥特曼称赞为「我们这一代最杰出的头脑之一」;
OpenAI 技术 Fellow、前者的高中同学 Szymon Sidor。
最近,在《Before AGI》播客节目中,两人一起回忆了 OpenAI 的峥嵘岁月。
两位还和 MIT 教授、OpenAI 前小组负责人 Aleksander Mądry 讨论了 ChatGPT 时代、推理模型、可扩展的安全。
这对 OpenAI「双子星」分享了他们的合作模式:
Jakub 通常会在办公室或公寓里走来走去,陷入深度思考,探索如何理解某个现象;而 Szymon 则更倾向于立刻动手,采集数据,试试各种实验。
有时候,解决问题最难的地方,其实「要相信它真的能被解决」。而 Szymon 拥有一种乐观、果断的气质,他总是愿意动手干、愿意去采集数据。
而这次节目中,最珍贵的是 OpenAI「宫变」当日的个人回忆。
OpenAI 宫变当日
2023 年 11 月 17 日中午,OpenAI 董事会突然宣布罢免奥特曼的 CEO 职位。
当时,午饭时间 Szymon Sidor 突然看到了这个消息,他第一反应是去找 Jakub。
Szymon Sidor 直接打断了正埋头跟别人讨论研究问题的 Jakub。
Jakub 马上走出大楼,直接给奥特曼打电话,询问发生了什么?
这个决定太突然了,也没有任何事先解释或预警。
接下来的几天,大家都处于混乱中,试图搞清楚:董事会为什么会做出这种决定?它对我们未来意味着什么?
顺便插入一句,在奥特曼被解雇后,Jakub Pachocki、Szymon Sidor 和 Aleksander Mądry 随即追随奥特曼,一起辞职。
回过头看,这件事最重要的教训是:治理结构真的很重要。
我们花了接近十年时间建设的 OpenAI,居然可以因为一次治理决策而差点完全偏离轨道。
如果治理没有提前规划清楚,哪怕你技术再领先,也很脆弱。
虽然在设立机构结构时已经很认真了,但后来证明,OpenAI 仍然低估了它真正的重要性。
在公司刚起步时做出的决定,即便当下看起来无关紧要,将来也可能影响深远。
高中已相识
OpenAI 再聚首
他们在波兰高中相识,因为热爱编程参加同一所计算机夏令营。
在到美国留学后,两人友情升温,分别求学于哈佛、MIT、CMU;2017 年,再于 OpenAI 重聚,成为横跨算法、系统、推理研究的最佳搭档。
俩人加入 OpenAI 的契机都因为 AlphaGo 的冲击。
从高中起,Jakub Pachocki 就非常沉迷于探索「计算机能力的极限」。
加入 OpenAI 前,他认为要实现具有推理能力的 AI,条件并不成熟。
但 AlphaGo 的成功让他意识到:AI 的潜力远超原先的判断,原来我们真的已经进入一个新 AI 阶段了。
从那一刻起,他就知道:是时候行动了。
早在 OpenAI 成立前,联合创始人 Wojciech Zaremba 就试图拉 Jakub 入坑深度学习。当时 OpenAI 还有其他熟人,而且面试也很顺利,所以 Jakub 在 8 年前下定决心加入 OpenAI,顺利入职。
Szymon Sidor 则起步于机器人系统,最初的兴趣竟源于电影《钢铁侠》。
他申请过美国一堆大学的机器人项目,最后因为英语考试,只有 MIT 没有拒绝他。
虽然被录取了,但他对机器人逐渐感到失望,甚至一度想退学。唯一让他坚持下来的是:他开始对深度学习感兴趣,全情投入 AI 前沿。后来又接触了强化学习(RL)。
AlphaGo 更是坚定了他要做 AI 的决心。
Szymon 原本想去 DeepMind,但面试时被一堆理论机器学习问题给刷下来了。而 OpenAI 更「工程务实」,加上朋友们都去,就一门心思奔 OpenAI 而去。
不过,最初他对「短期就能实现 AGI」的时间线完全不信。
ChatGPT 并非临时起意
虽然现在的氛围明显更轻松了,但我还是觉得早期那种「笨拙」的感觉有一种特别的魅力。
当时大家说话都很慎重,一句句地在脑子里排练,最后说出来的通常都非常深刻,有时甚至挺有意思的。
在 OpenAI, Jakub 参与的第一个大项目是 Dota 2。他们直接 Scaling 现有R算法,无脑放大最后竟然奏效了!
他们花了两年,主要是解决工程瓶颈,而不是算法瓶颈。
Szymon 则介绍了 OpenAI 早期的「集体冒名顶替综合征」:
午饭时大家安静如鸡,每个人都在脑子里把要说的话排练十遍,然后才开口。
现在回头看,那种「尴尬」也体现在技术路线:OpenAI 东戳一下、西试一下,迟迟找不到聚焦点,直到 GPT 范式出现。
外界常说关于 GPT 的诞生,是 Alec「偶然」发现。
真相是,Ilya 和 Alec 早就盯上语言模型。
真正的跳跃是 2017 年的《情感神经元》论文。
当时,还没有没 Transformer,但他们发现:只要用大量影评无监督训练,模型就能自发学会「正面/负面」情感概念。
那一刻大家意识到:原来不用语法规则,只靠数据也能捕捉到语义。此后,Alec 持续在语言模型上深耕,最终发明了 GPT。
Alec Radford:GPT 开山论文作者,AI 领域最强本科生之一
这个实验颠覆了大家对语言建模的看法:此前大家还停留在「基于语法规则」的思路上。而这个结果表明,模型可以完全靠数据就学出语义。
不过,大部分 OpenAI 的研究员是在修 bug。
OpenAI 研究员
每天都在找 bug
深度学习独特之处在于:我们既完全掌控代码与架构,却又无法彻底理解网络内部的优化机制。于是哪怕一个小小的实现错误,模型也会「强行学出来」,导致结果看起来还行,实则偏差很大。
像研究自然现象一样,两人设计实验:每一步都得验证「是不是我们以为的那样」。
比如,他们在训练深度强学习算法 DQN 时,由于将游戏画面转成灰度图,错误地校准了绿色通道的系数,结果游戏中的鱼「消失」了,导致模型性能显著下降。
比如,之前他们发现网络偶尔会莫名其妙地「数值爆炸」。有一天他俩决定死磕,把每一个标量都打印出来,最后发现是某个梯度裁剪阈值在极端 batch 下失效。
从此之后,OpenAI 招了一批「debug 狂魔」,专门啃这种幽灵 bug。
向推理模型的范式转移
如果说 GPT-3 展现的是「语言生成能力」,那过去两年,Jakub 和 Shimon 领导团队,正在推动「推理能力」。
他们的目标不是让模型模仿人类的解题步骤,而是教模型学会用它自己的方式来思考。
这是「Chain of Thought」(思维链)范式的本质突破 —— 不再只是预测「人类怎么说」,而是尝试生成「它自己该怎么想」。
虽然推理模型的实用性在提升,但离最终目标还有距离。
预计未来几年进展会更快。
锯齿智能:不断定义的 AGI
在过去,「AGI」是理想主义者口中的「智能奇点」。、
2017 年,OpenAI 对 AGI 的描述:「一个能完成绝大多数经济价值任务的 AI」。
看似是可衡量的技术目标,其实是一种情绪目标。
而现在,他们更倾向于把它视为:
-
一组不断出现的新能力;
-
一条从「能聊天」到「能做科研」的技术演进路径。
Jakub 提出,「能自主进行科学研究的系统」是他心中最像 AGI 的形态,而这种能力将在未来几年内出现。
如果 AGI 定义为「引发大规模经济转型的 AI」,那么它很快就要来了。
AGI 不仅是技术目标,也是一种情绪目标,是一直追逐的星辰大海。
而「自动研究员」正是我们这个推理方向的核心终点。
当然,越接近这个终点,「对齐问题」也就变得越重要。
未来
他们强调,对齐问题(AI Alignment)不仅是「技术问题」,更是「哲学难题」。
随着模型越来越复杂,规则、监督、惩罚这套体系将逐步失效。
他们举了一个现实例子:社交媒体推荐系统。
AI 不断优化「用户参与感」,结果可能导致信息茧房、社会撕裂 —— 即便一开始的目标听起来没毛病。
我们如何确保模型真正做的是我们希望它做的事?这是一个巨大的挑战。
而在那之前,其实还有一个更紧迫的问题: 如果一套极具研发能力的系统可以由少数人掌控,它能自己发明新技术……
那它对治理结构和权力平衡的影响,将是空前的。
最意外的是:原本怀疑「AI 安全可行性」的 Szymon,现在对安全问题最乐观。
我们现在必须同时解决「能力」与「安全」,否则连有用的产品都做不出来。
他们用谨慎与热忱提醒我们:
真正的 AI 进步,不只是「智能」,而是「让世界更美好」。
参考资料: