位置： > 凯时登陆APP >

Karpathy离职OpenAI首发2小时AI大课！从头开始构建GPT分词器

作者：admin时间：2024-03-05 04:54浏览：次

　　果不其然，继放出BPE的GitHub代码后，Karpathy终于上线了「从头构建GPT分词器」的课程凯时登陆APP，引来网友关注凯时登陆APP凯时登陆APP。

　　其实凯时登陆APP凯时登陆APP，早在新课推出两天前凯时登陆APP凯时登陆APP，karpathy在更新的GitHub项目中，就预告了这件事。

　　这个项目是minbpe——专为LLM分词中常用的BPE（字节对编码）算法创建最少凯时登陆APP凯时登陆APP、干净以及教育性的代码。

　　AI机器学习研究员Sebastian Raschka表示，「我喜欢从头开始的实现，我真的很期待看到这个视频」！

　　英伟达高级科学家Jim Fan表示，「Andrej的大脑是一个大模型凯时登陆APP，它能将复杂的事物标记化为简单的token，让我们小型思维语言模型可以理解。

　　还有UCSC的助理教授Xin Eric Wang表示，「就个人而言，我非常欣赏他多年前发表的关于RL的文章：，这篇文章帮助我进入了RL领域」凯时登陆APP。

　　它们有自己的训练集、算法（字节对编码BPE），并在训练后实现两个功能：从字符串编码到token凯时登陆APP凯时登陆APP，以及从token解码回字符串。

　　视频中，他将讨论许多这样的问题。讨论为什么分词器是错误的，以及为什么有人理想地找到一种方法来完全删除这个阶段。

　　在本讲座中，他将从头开始构建OpenAI GPT系列中使用的Tokenizer凯时登陆APP。

　　其中包括引言介绍凯时登陆APP、字节对编码 (BPE) 算法演练凯时登陆APP、分词器/LLM 图：这是一个完全独立的阶段凯时登陆APP、minbpe练习时间！编写自己的GPT-4分词器等等。

　　从根本上说凯时登陆APP，这是因为我们看到这些字符被分割成了一个个token凯时登陆APP，其中有些token实际上相当长凯时登陆APP凯时登陆APP。

　　因此，我怀疑这个单个token中塞进了太多的字符凯时登陆APP，而且我怀疑该模型在与拼写这个单个token相关的任务方面应该不是很擅长凯时登陆APP凯时登陆APP。

　　当然凯时登陆APP，我的提示是故意这样做的凯时登陆APP，你可以看到默认风格将是一个单一的token，所以这就是模型所看到的。

　　这不仅是因为LLM在训练模型参数时，看到的非英语数据较少凯时登陆APP，还因为分词器没有在非英语数据上得到充分的训练凯时登陆APP。

　　事实上凯时登陆APP，我对此感到有点惊讶，因为这是一个非常常见的短语，只是典型的问候语，如你好凯时登陆APP凯时登陆APP，最终是三个token。

　　而英语中的「你好」是一个单一的token。这是我认为LLM在非英语任务中表现差的原因之一便是分词器凯时登陆APP。

　　比如一个类似于字符级别的算法来进行加法凯时登陆APP，我们先会把一加起来，然后把十加起来，再把百加起来。

　　你必须参考这些数字的特定部分，但这些数字的表示完全是任意的，主要是基于在分词过程中发生的合并或不合并。

　　你可以看看，它是一个单一的token，还是2个token，即1-3、2-2、3-1的组合凯时登陆APP。

　　不幸的是，有时我们会看到所有四位数字的四个token凯时登陆APP，有时是三个凯时登陆APP，有时是两个，有时是一个凯时登陆APP，而且是以任意的方式凯时登陆APP。

　　所以这就是为什么我们会看到凯时登陆APP，比如说，当训练Llama 2算法时凯时登陆APP，作者使用句子片段时，他们会确保把所有的数字都分割开来凯时登陆APP，作为Llama 2的一个例子，这部分是为了提高简单算术的性能。

　　最后凯时登陆APP，为什么GPT-2在Python中的表现不佳凯时登陆APP凯时登陆APP，一部分是关于架构、数据集和模型强度方面的建模问题。

　　但也有部分原因是分词器的问题，可以在Python的简单示例中看到凯时登陆APP，分词器处理空格的编码效率非常糟糕。

　　每个空格都是一个单独的token，这大大降低了模型可以处理交叉的上下文长度凯时登陆APP凯时登陆APP凯时登陆APP，所以这几乎是GPT-2分词的错误凯时登陆APP凯时登陆APP，后来在GPT-4中得到了修复。

电话：86 1317 3122242
传真：1317 3122242
邮编：276826
地址：中国山东诸城市开发区工业园