Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉

  梦晨发自凹非寺

  量子位公众号 QbitAI

  2003 年夏天的一个周日,AI 教父 Hinton 在多伦多大学的办公室里敲代码,突然响起略显莽撞的敲门声。

  门外站着一位年轻的学生,说自己整个夏天都在打工炸薯条,但更希望能加入 Hinton 的实验室工作。

  Hinton 问,你咋不预约呢?预约了我们才能好好谈谈。

  学生反问,要不就现在吧?

  这位年轻学生就是 Ilya Sutskever,刚刚完成本科二年级的数学课程,从教务处打听到“想学机器学习,最好去找 Hinton 教授”。

  他照做了,也因此成就了一段传奇:

  从 AlexNet 到 AlphaGo,他两次参与改变世界的研究。

  OpenAI 创立之初挖他去当首席科学家,在他的领导下,推出了 GPT 系列早期版本、DALL·E系列、代码大模型 Codex,直到 ChatGPT,再次改变世界。

  多年后,他发动董事会内讧,最终与 OpenAI 彻底分道扬镳,全世界都在等待着他的下一个动作。

  在 OpenAI 的时候,Ilya 并不像 Altman 那样到处抛头露面,也不像 Brockman 天天在网上分享自己的“编程之禅”。

  仅有的几次演讲和访谈中也多是聊技术、宏观思考,不常谈及自己的经历,最近半年更是销声匿迹。

  这次的故事,正是来自他的博士导师 Geoffrey Hinton。

  在与 Sana Labs 创始人的最新对话节目中,Hinton 不仅讲了自己的事,还回忆了师徒共事期间的一些往事。

  20 多年过去了,很多细节在 Hinton 的叙述里还是那么鲜活。

  这段访谈录像理所当然的火了,除了轶事之外,还涉及 Ilya 的一些学术思想怎么来的,又是如何发展:

  • 2010 年 Ilya 就用 GPU 开发了一种语言模型
  • Scaling Law 最早是他的一种直觉
  • 两人都认为”语言模型不只是预测下一个 token“
  • 两人都认同“预测即压缩压缩即智能”

  那么,Hinton 眼中的 Ilya,到底是什么样子?

  惊人的原始直觉

  Ilya 加入实验室后,Hinton 给他布置的第一个任务是读论文,一篇关于反向传播的论文。

  下一个周会,Ilya 回来报告了,说“我不理解”。

  Hinton 很失望,内心 OS:“这孩子看着挺机灵的,咋连链式法则求导这么基础的东西都看不懂?”

  Ilya 连忙解释,哦这个部分我懂了,我不理解的是,为什么不给梯度加一个 sensible functional optimizer?

  Hinto 团队后来花了好几年来解决这个问题,最初指出问题的却是刚入门一周的 Ilya。

  像这样的情况后面还在反复发生……Hinton 如此评价 Ilya:他对事物的原始直觉总是非常好。

  但 Hinton 也说搞不清楚 Ilya 这种直觉从何而来,或许归功于他从小就对人工智能问题感兴趣,再加上数学基础很棒。

  除了研究直觉,学生时期的 Ilya 也展现了超强的代码和工程能力。

  当时还没有 TenserFlow 或 Torch 之类流行框架,机器学习的主要工具和平台是 Matlab。

  一项工作需要在 Matlab 里调整大量矩阵乘法代码,Ilya 做了一段时间就很不耐烦,说要为 Matlab 写一个界面:我用其他(Python 等更方便的)语言写代码,然后能自动转成 Matlab 代码就好了。

  Hinton 听说后苦口婆心劝他,你可别,这得花上一个月时间,我们不要分心,把手头项目先做完。

  Ilya 却轻描淡写地说,害,没事,今天早上我已经写完了。

  这项工作出现在 Ilya 的博士毕业论文里

  打小就坚信 Scaling Law

  正如 Hinton 所言,Ilya 在很多问题上有惊人的直觉。

  今天全 AI 圈不少人信奉的 Scaling Law,Ilya 学生时代就已坚信,并抓住各种机会向身边的人安利:只要(把模型)做得更大,它们就会发挥更好的作用。

  后来到 OpenAI 成立之初,Ilya 的表述更加完善了:如果你有一个大而深的神经网络,可以在大量数据上进行训练,那么你实际上可以解决任何模式识别问题。

  早年间 Hinton 看来,这就像是研究者在没有创新的想法时,一种“逃避责任”的表现。当时的我错了,而 Ilya 基本上是对的。

  比如 Transformer 确实是一种创新想法,但实际上起作用的还是规模,数据的规模和计算的规模。

  Hinton 提到在当年那个时间节点,没人敢预料计算机速度今后会快上 10 亿倍,最多想象到快 100 倍就不得了。

  如果有今天的计算机,当年研究的难题可能会自行解决,包括语言模型问题。

  (此处应插入比尔盖茨曾预言 64k 内存就足够任何人用了笑话)

  Ilya 在 2003 年加入 Hinton 的实验室,不知具体何时开始有了 Scaling Law 的想法,可能在他脑海里已经盘旋了 20 多年。

  后来直到 2020 年,GPT-3 发布的几个月前,OpenAI 团队才正式在论文中向世人完整定义和介绍这一理念。

  在语言模型上用 GPU,比 AlexNet 更早

  2010 年底,Ilya 和另一个学生 James Martens(现 DeepMind 研究科学家)合作研究了一种语言模型,后来入选 ICML 2011。

  RNN 架构,使用维基百科数据,在 8 张当时最先进的 GPU 上训练,比在 AlexNet 上使用 GPU 还早两年。

  与今天的大语言模型预测下一个 token 不一样,当时他们尝试的是一次预测一个字符。

  这款模型能力有限,比如给一段起始文字,模型可以继续生成看起来像维基百科文章的语句。

  虽然语意上像是胡言乱语,但语法和标点符号大部分是准确的,引号和括号已经能成对出现,主语和动词形态一致,比如论文中的一段:

生命的意义是古代人类繁殖的传统:对于好男孩什么时候移除她更大的来说,并不是很有利。在这个节目的协议中,几乎一致地重新浮现……

  当时多伦多大学校刊的采访中,Ilya 认为这已经超出了所有人的预期:它发现了单词的存在,也发现了语法。

  Hinton 理智上也无法去相信这个系统能“理解”任何事,但它看起来就像是理解了。

  比如给它一个地点组成的列表,它可以继续生成地点,尽管还分不出国家和州的区别。

  当年的 Ilya 并不愿意讨论这项工作的潜在应用。

  在维基百科上成功后,团队又尝试了纽约时报文章数据,目标是教会它根据文字识别不同作者的身份。

  但 Ilya 已经想到并承认,如果做的足够好,这项技术有一天可能成为洗稿软件的基础。

  如今,这篇论文的代码依然存放在多伦多大学的服务器上,供感兴趣的人研究。

  不止是预测下一个 token

  后来的 AlexNet、师徒三人“拍卖”自己加入谷歌等大家已熟知的故事,这里先略过。

  Ilya 加入 OpenAI 后,虽然不再与 Hinton 共事,但两人的学术思想始终在一条路上。

  ChatGPT 问世后,不少人批评大模型本质上只是统计学,预测下一个 token,就像随机模仿人类说话的鹦鹉。

  但 Hinton 和 Ilya 师徒二人都认为,远不止如此。

  在 Hinton 眼中,问题之后的下一个 token,便是答案的第一个 token。

  因此学会预测,就意味着必须学会理解问题

  这种理解的方式与人类相似,同时与老式基于三元组数据的自动补全有根本不同。

  今天我们现在已经看到了,做一个大语言模型,不刻意训练其推理能力,就产生了推理能力。

  这就是大脑如何学习,你在预测视觉的下一帧、听觉的下一个声音。

  Ilya 更是不遗余力传播这套理论,在去年和英伟达老黄的炉边对话中说了这个,在 OpenAI 内讧两周前最后一个公开采访中也讲了这个:

当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个单词时,我们所做的就是学习一个世界模型。

  从表面上看,可能只是在学习文本中的统计相关性。

  但事实证明,为了“只是学习”文本中的统计相关性,为了压缩它们,神经网络需要学习的是文本生成过程的某种表示。

  文本实际上是对世界的投影

  在另一场采访中,他走的更远:

很好地预测下一个 token,意味着了解创造该 token 的深层现实。

  这不仅是统计学,而是理解创造了这些统计数字的那个世界。

  如果真的很擅长预测下一个 token,就可能根据普通人如何行动的数据,外推出拥有非凡智慧和洞察力的人如何行动,尽管这种人可能并不存在。

  这就是 Ilya 认为的,为什么“预测下一个 token”范式有可能抵达 AGI,甚至有可能超越人类直至 ASI。

  预测即压缩,压缩即智能

  在不同场合提到“预测下一个 Token”时,Ilya 大概率会同时提到“压缩”,他认为预测即是压缩,压缩就是智能的来源。

  但 Ilya 总是从理论的角度去解释这个想法,并不容易让所有人都能理解。

  比如在 UC Berkley 的一场演讲中,他这样解释:

  - “Kolmogorov 压缩器”,是理论上能生成特定数据集的、长度最短的一段程序,能最小化遗憾值。

  - 随机梯度下降,可以看成在软计算机(比如大型 Transformer)的权重里,搜索隐含的“Kolmogorov 压缩器”。

  - 神经网络越大,就越能更好的近似“Kolmogorov 压缩器”,遗憾值越低。

  Hinton 也认同这个说法,并且在访谈中举了非常形象的例子。

大模型做的是寻找共同结构,使用共同结构编码事物,这样效率更高。

  如果你问 GPT-4 堆肥和原子弹相似性在哪,大多数人类都回答不出来,认为它们是非常不同的两种东西。

  GPT-4 会告诉你,虽然他们的能量规模不同,时间尺度不同,但仍有相同之处:

  • 当堆肥变热时,产生热量的速度就更快。
  • 当原子弹产生更多中子时,产生中子的速度也更快。

  通过类比,AI 就理解了“链式反应”的概念。

  Hinton 认为,AI 在利用这种理解去将所有信息压缩到自己的权重中。

一但 AI 这样做了,那么它就有能力理解数百种人类还未见过的类比,这就是创造力的来源。

  Hinton 眼中什么是好学生?

  说回到两人相遇时,Hinton 谈到,与他交谈没多久就能看出他很聪明。

  再多交谈一会,就能发现他有很好的直觉,而且擅长数学。

  所以选 Ilya 做学生是非常容易做出的决定。

  那么如何挑选其他学生?Hinton 也用了 Ilya 最擅长的方法:跟着直觉走。

如果一个人轻信别人告诉他的一切,那就太致命了。

  不轻信他人,而是尝试将新信息融入自己对世界的理解框架中,如果融入不进去,就拒绝,这是很好的策略。

  如果试图吸收被告知的一切,最终会得到一个非常模糊的框架。相信一切,但是没有用处。

  所以 Hinton 眼中的好学生,应该拥有一个坚定的世界观,并试图摆弄输入的事实以适应你的观点

这样虽然也可能陷入深信宗教或坚持致命错误,但我认为这种方法仍是正确的。

  后来我们也能看到,两人都是秉持这样的理念,坚持着“大模型不止是预测下一个 token”,坚持着“预测即压缩,压缩即智能”。

  他们也都坚持认为,这个世界应该更加重视 AI 带来的风险,一个因此离开了工作 10 年的谷歌,一个因此离开了一手拉扯大的 OpenAI。

  Hinton 访谈完整视频

  https://www.youtube.com/watch?v=tP-4njhyGvo

  参考链接:

  [1]https://x.com/joelhellermark/status/1791398092400390195

  [2] https://www.cs.utoronto.ca/~ilya/pubs/ilya_sutskever_phd_thesis.pdf

  [3]https://magazine.utoronto.ca/people/students/ilya-sutskever-google-phd-fellowship/

  [4]https://www.utoronto.ca/news/u-t-alum-leading-ai-research-1-billion-non-profit-backed-elon-musk

  [5]https://icml.cc/2011/papers/524_icmlpaper.pdf

  [6]https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092

  [7]https://www.youtube.com/watch?v=Yf1o0TQzry8

  — 完 —