Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道

  来源:新智元

  今年 6 月,华人 AI 研究员毕树超在哥伦比亚大学和哈佛大学发表演讲,讲述了在过去十年中,他如何从怀疑 AGI 逐渐转变为对 AGI 的日渐痴迷。

  最近,他分享了在哈佛大学的演讲内容。

  两次演讲主题一致,内容类似,关于硅基智能的过去、开放问题和未来。

  从 OpenAI 离职后,毕树超加入了 Meta 的超级智能实验室,他已经分享过哥伦比亚大学的演讲:

  有趣的是,在哈佛演讲最后,有人提了一个问题:

  如果您在「AI 原生交互」领域创业,您会押注于哪些多模态基础技术?未来两年最大的机遇在哪里?

  确切的答案,毕树超承认自己不知道,即便知道了也不会公之于众。

  不过他还是回顾了历史,指出了两个历史性突破:

  (1)GUI(图形用户界面),催生了个人电脑;

  (2)多点触控,催生了移动设备。

  如果有人能基于人工智能找到下一个人机交互方式,那将是一家价值万亿美元的公司。而且他非常肯定地给出了宝贵的洞见:

  语音和视觉将成为其中的一部分。它必须非常接近人类自然的交互方式。

  AI 狂飙史

  首先,他介绍了从 2012 年 AI 日新月异的进步,抛出一条清晰而震撼的「AI 进化时间线」——十年,人工智能完成了一次从蹒跚学步到奔跑跃迁的蜕变。

  2012 年,AlexNet 横空出世,「大数据+算力」一击击碎了数十年手工特征工程的神话。

  2013 年,Word2Vec 出现,引爆「万物皆向量」革命。

  单词成了可以计算距离的向量,语义之间有了坐标系。

  推荐系统、搜索引擎瞬间换了玩法——YouTube 的算法,也从此学会了更懂你。

  2015 年,两个名字写进了深度学习的骨骼——Adam 优化器和 ResNet 残差网络。

  前者像是给训练提速的涡轮,让模型跨数据集稳定奔跑;

  后者则打通了「神经网络的任督二脉」,让深度从十几层飙到上百层不再是奢望。

  2017 年,Transformer 来了。它像一座跨领域的超级枢纽,不仅颠覆了 NLP,更成了多模态模型的核心骨架。从此,机器开始学会「长篇大论」,并且「举一反三」。

  2019 年,Rich Sutton 总结了《苦涩的教训》:利用算力,一般的方法终将压倒性胜过人工工程。

  随之而来的,是被毕树超反复强调的——Scaling Law。

  更多数据、更多参数、更多算力,性能就能稳步上升。而且,不只是稳步。

  当增长跨过某个临界点,模型会突然「开窍」:会推理、会诊断、会用你意想不到的方式解决问题。

  这不是魔法,而是数学与算力堆叠出的质变。

  过去十年,AI 像婴儿学会了走路;未来十年,它可能会跑得比任何人都快。

  强化学习:DeepMind 的时代

  历史回顾的第二部分,毕树超把视线从自监督学习转向强化学习(RL),故事同样惊心动魄。

  2015 年,DeepMind 推出 DQN,AI 第一次能从原始像素里学会玩街机游戏。没有规则输入,没有人类提示,靠奖励信号驱动,正如孩子在不断尝试中学会骑车一样。。

  接着,世界震惊于 AlphaGo。先从人类棋谱起步,再靠自我对弈疯狂磨炼,最终击败围棋世界冠军。它的升级版 AlphaGo Zero 更狠——彻底抛开人类经验,从零起跑,却跑进了人类棋史的巅峰。

  那被称为「神之一手」的第 37 手,成了载入史册的 AI 时刻。

  AlphaZero 则把这一套搬到国际象棋和将棋,全面碾压顶尖棋手。而在棋盘之外,OpenAI 将强化学习的战场搬到 3D 即时战略——Dota 2。最终,他们的 AI 团队击败了世界级职业战队。

  看似风光无限,但毕树超直言——这些都是「单项冠军」。

  它们在特定任务上超人,却无法迁移到更多领域。围棋高手不会自动变成医生,AI 亦然。

  转折出现在预训练+人类反馈强化学习(RLHF)的结合。

  ChatGPT 就是这样炼成的:

  先让模型吸收海量知识,再用人类偏好做微调,让它不仅聪明,还更懂交流、更贴近人类思维。

  结果?一场爆发。原本低调的研究预览,迅速变成全球现象级产品,每周吸引 5 亿+用户。

  毕树超提醒,强化学习是 AI 可无限扩展的两条路径之一(另一条是自监督学习)。既然预训练的规模已被推到极限,下一步,就是在强化学习上同样拉满算力。

  开放问题

  数据决定智能

  当话题进入演讲的第二大部分,毕树超的语气陡然凝重——这一次,他谈的不是 AI 的辉煌战绩,而是挡在前面的瓶颈。

  他指出了关键问题:「别以为只要有更大的模型和更多的算力,AI 就能无限变强。有一样东西,比算力更稀缺——高质量数据。」

  数据红利,正在消耗殆尽

  在过去十年里,我们喂给 AI 的是人类几千年来积累的知识宝库:书籍、论文、代码、图片、视频、网页……这些数据像肥沃的土壤,让模型在短短几年长成参天大树。

  但毕树超警告,这块土壤正在快速流失。

  高质量、结构化、真实、有深度的信息,正一点点耗尽。等到库存见底,光有更大的「树」和更强的「阳光」(算力),也长不出新枝。

  他直言,这是一个全行业即将面对的「隐形天花板」。

  突破口I:让 AI 自己造数据

  解决之道?

  毕树超抛出第一个突破口——让 AI 像人类一样,通过与环境互动生成新数据。

  人类的学习过程不是坐在教室里背完所有书,而是边做边学。我们在尝试、失败、修正中获得经验,再把这些经验传递给别人。

  「为什么不能让 AI 也这样做?」他问。

  强化学习中的自我博弈(self-play)已经证明了这一思路:

  AlphaGo Zero 就是在与自己下棋的过程中,不断创造并吸收新局面,从而突破人类经验的边界。

  如果 AI 可以在虚拟环境、模拟实验、甚至真实世界的机器人平台上持续生成并验证数据,它就能摆脱「吃老本」的命运。

  「用算力换数据——这是我们唯一能让曲线继续向上的方法之一。」毕树超强调。

  突破口 II:让学习更高效

  第二个突破口,是数据效率。

  人类只需看几局棋,就能学会规则并进行策略思考;而大模型往往要消耗百万、千万级的样本,才能掌握类似的技能。

  原因何在?

  毕树超给出两点:

  • 泛化能力——人类会迁移推理模式。学会数独的逻辑,可能帮你下棋时提前几步预判。

  • 学习粒度——人类学习的是「概念」,而不是逐字逐句的「下一个词」。同一个意思有成千上万种说法,人类不需要全部记住,而模型却在消耗大量资源去拟合这些表述。

  「这就像你要学游泳,不是去背所有水花的形状,而是直接掌握漂浮和划水的原理。」他形象地说。

  如果模型能直接学习概念和关系,而非表面符号,数据需求将骤降,学习速度也会飞跃。

  安全与对齐,难度最高的关口

  即便解决了数据问题,毕树超提醒,还有另一道高墙——安全与对齐。

  他将其分为三层:

  • 内容安全:避免生成有害信息。

  • 滥用防护:防止被恶意利用。

  • 内在对齐:确保 AI 的目标与人类价值观一致。

  前两层已有较成熟的技术与策略,但第三层,才是真正的硬骨头。

  未来:AI 无处不在

  当演讲进入展望部分,毕树超开始描绘一幅气势恢宏的未来图景——AI 将全面渗透社会的每个角落,重塑我们的生活、工作与认知。

  智能体:AI 时代的手机

  毕树超预言,推理能力的进步将让 AI Agent 像空气一样无处不在。

  它们会在办公室帮你做研究、写报告,在家中帮你管理日程、照顾孩子的学习。

  「想象一下,身边有一个随时待命的超级助理,永不疲倦,从不忘事。」

  这不是奢侈品,而会像智能手机一样普及。

  AI for Science:颠覆科研范式

  他将科研形容为「在一片浩瀚的可能性海洋中寻找珍珠」。

  而 AI 的搜索能力,将让我们一次网下去,就捞起整串珍珠。

  药物研发不再耗费十年,可能几个月就能找到候选分子;

  材料科学可以在模拟中直接筛出最佳配方;

  像 AlphaFold 这样的突破将成为常态。

  毕树超甚至说,科学家未来可能会有属于他们的「AlphaGo 时刻」——突然看到 AI 给出一个人类几代人都没想到的解法。

  AI 移掉两座大山:教育与医疗

  教育领域的变革同样惊人。

  AI 可以让任何人无障碍进入新领域,也可以为顶尖学者量身打造最优学习路线。

  「也许未来,一个人 5 年内可以完成 10 个博士课题,」毕树超半开玩笑地说,「前提是他真的愿意学。」

  这不仅意味着效率,更意味着教育公平的真正可能——偏远地区的孩子,也能享受世界顶级的教学资源。

  AI 让好医生触手可及。

  他相信,AI 能为更多人带来高质量的医疗服务,尤其是在医生资源匮乏的地区。

  一个普通诊所可能会有 AI 诊断系统,能像经验丰富的医生一样识别病情,还能实时参考全球最新的医学研究。

  「很多人的第一位好医生,可能会是 AI。」

  具身智能:人类伸向宇宙的触角

  毕树超将目光投向更远——具身智能(Embodied AI)。它不仅是机器人在仓库里搬货,更是能进入深海、火山、甚至外太空的探索者。

  在那些人类无法生存的地方,它们可以代替我们采集数据、建造设施,甚至开启跨星际的「殖民」尝试。

  「人类的触角,会通过它们伸向整个宇宙。」

  演讲人简介

  目前,毕树超是 Meta 超智能实验室研究员,RL/后训练/智能体;之前,在 OpenAI 研究多模态和 RL。

  他联合创建了 GPT-4o 的实时语音界面,主导了 OpenAI 的多模态后训练。

  他的工作让人工智能能够像人类一样说话——富有情感、自然且即时。

  可以把他看作是未来 AGI 助手的声音设计师。

  他也曾经在谷歌从事数据科学。

  他是浙江大学理学学士(竺院工高班),加州伯克利大学理学博士,大数据资深从业者与实践者,专注大规模机器学习和统计模型在互联网与金融领域的应用。

  曾在硅谷联合创立大数据公司,基于谷歌, Facebook 和 Twitter 数据指导广告投放策略与监控广告投放效果。实用主义的数据科学家,深层次去伪存真地理解数据价值。