Karpathy离职OpenAI，首发2小时AI大课！从头开始构建GPT分词器

　　新智元报道

　　编辑：桃子

　　果不其然，继放出 BPE 的 GitHub 代码后，Karpathy 终于上线了「从头构建 GPT 分词器」的课程，引来大波网友关注。

　　离职 OpenAI 的技术大神 karpathy，终于上线了 2 小时的 AI 大课。

　　——「让我们构建 GPT Tokenizer（分词器）」。

　　其实，早在新课推出两天前，karpathy 在更新的 GitHub 项目中，就预告了这件事。

　　这个项目是 minbpe——专为 LLM 分词中常用的 BPE（字节对编码）算法创建最少、干净以及教育性的代码。

　　目前，GitHub 已经狂揽 6.1k 星，442 个 fork。

　　项目地址： https://github.com/karpathy/minbpe

　　网友：2 小时课程含金量，相当于大学 4 年

　　不得不说，karpathy 新课发布依然吸引了业内一大波学者的关注。

　　他总是可以把相当复杂的 LLM 概念，用非常好理解的方式讲出来。

　　有网友直接取消了晚上的约会，去上课了。

　　与 karpathy 的约会之夜。

　　AI 机器学习研究员 Sebastian Raschka 表示，「我喜欢从头开始的实现，我真的很期待看到这个视频」！

　　英伟达高级科学家 Jim Fan 表示，「Andrej 的大脑是一个大模型，它能将复杂的事物标记化为简单的 token，让我们小型思维语言模型可以理解。

　　还有 UCSC 的助理教授 Xin Eric Wang 表示，「就个人而言，我非常欣赏他多年前发表的关于 RL 的文章：http://karpathy.github.io/2016/05/31/rl/，这篇文章帮助我进入了 RL 领域」。

　　还有人直言这两个小时课程的含金量，堪比 4 年制大学学位。

　　「Andrej 是最好的 AI 老师」。

　　为什么是分词器？

　　为什么要讲分词器？以及分词器为什么这么重要？

　　正如 karpathy 所言，分词器（Tokenizer）是大模型 pipeline 中一个完全独立的阶段。

它们有自己的训练集、算法（字节对编码 BPE），并在训练后实现两个功能：从字符串编码到 token，以及从 token 解码回字符串。

　　另外，大模型中许多怪异行为和问题，其实都可以追溯到分词器。

　　就比如：

　　- 为什么 LLM 拼不出单词？

　　- 为什么 LLM 无法完成超级简单的字符串处理任务，比如反转字符串？

　　- 为什么 LLM 不擅长非英语语言方面的任务?

　　- 为什么 LLM 不擅长简单算术？

　　- 为什么 GPT-2 在用 Python 编码时遇到了超出必要的麻烦？

　　- 为什么 LLM 在看到字符串时突然停止？

　　- 为什么大模型实际上并不是端到端的语言建模

　　视频中，他将讨论许多这样的问题。讨论为什么分词器是错误的，以及为什么有人理想地找到一种方法来完全删除这个阶段。

　　两小时大课走起

　　在本讲座中，他将从头开始构建 OpenAI GPT 系列中使用的 Tokenizer。

　　根据 YouTube 课程章节介绍，一共有 20 多个 part。

　　其中包括引言介绍、字节对编码 (BPE) 算法演练、分词器/LLM 图：这是一个完全独立的阶段、minbpe 练习时间！编写自己的 GPT-4 分词器等等。

　　从讲解到习题演练贯穿了全部课程。

　　以下是从演讲内容中总结的部分要点。

　　在视频结尾，Karpathy 重新回顾了 LLM 分词器带来的怪异问题。

　　首先，为什么 LLM 又时拼不正确词，或者做不了其他与拼写相关的任务？

　　从根本上说，这是因为我们看到这些字符被分割成了一个个 token，其中有些 token 实际上相当长。

　　因此，我怀疑这个单个 token 中塞进了太多的字符，而且我怀疑该模型在与拼写这个单个 token 相关的任务方面应该不是很擅长。

　　当然，我的提示是故意这样做的，你可以看到默认风格将是一个单一的 token，所以这就是模型所看到的。

　　事实上，分词器不知道有多少个字母。

　　那么，为什么大模型在非英语任务中的表现更差？

　　这不仅是因为 LLM 在训练模型参数时，看到的非英语数据较少，还因为分词器没有在非英语数据上得到充分的训练。

　　就比如，这里「hello how are you」是 5 个 token，而它的翻译是 15 个 token，相当与原始的 3 倍大。

　　「안녕하세요」在韩语中代表着「你好」，但最终只有 3 个 token。

　　事实上，我对此感到有点惊讶，因为这是一个非常常见的短语，只是典型的问候语，如你好，最终是三个 token。

　　而英语中的「你好」是一个单一的 token。这是我认为 LLM 在非英语任务中表现差的原因之一便是分词器。

　　另外，为什么 LLM 会在简单的算术上栽跟头，也是与数字的 token 有关。

　　比如一个类似于字符级别的算法来进行加法，我们先会把一加起来，然后把十加起来，再把百加起来。

　　你必须参考这些数字的特定部分，但这些数字的表示完全是任意的，主要是基于在分词过程中发生的合并或不合并。

　　你可以看看，它是一个单一的 token，还是 2 个 token，即1-3、2-2、3-1 的组合。

　　因此，所有不同的数字，都是不同的组合。

　　不幸的是，有时我们会看到所有四位数字的四个 token，有时是三个，有时是两个，有时是一个，而且是以任意的方式。

　　但这也并不理想。

　　所以这就是为什么我们会看到，比如说，当训练 Llama 2 算法时，作者使用句子片段时，他们会确保把所有的数字都分割开来，作为 Llama 2 的一个例子，这部分是为了提高简单算术的性能。

　　最后，为什么 GPT-2 在 Python 中的表现不佳，一部分是关于架构、数据集和模型强度方面的建模问题。

　　但也有部分原因是分词器的问题，可以在 Python 的简单示例中看到，分词器处理空格的编码效率非常糟糕。

　　每个空格都是一个单独的 token，这大大降低了模型可以处理交叉的上下文长度，所以这几乎是 GPT-2 分词的错误，后来在 GPT-4 中得到了修复。

　　课后习题

　　在课程下方，karpathy 还给在线的网友们布置了课后习题。

　　快来打卡吧。

　　参考资料：

　　https://twitter.com/karpathy/status/1759996549109776702?t=lnj52VquAiuW4oG8yflJbA&s=19

作者：itwriter
来源：互联网
日期：2024-02-22
浏览 (3247)