大语言模型中的token解释

在大型语言模型中，"token"通常指的是一个离散的文本单元，它可以是单词、标点符号、数字或其他语言元素，这些元素被用作训练和生成文本的基本单位。在NLP中，通常使用tokenization技术将文本分割成token序列。具体来说，tokenization是将一个连续的文本字符串分割成一个个离散的单词或符号的过程。例如，对于英文句子 "The quick brown fox jumps over the lazy dog."，tokenization后会得到一个包含9个token的序列： "The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"。在大型语言模型中，每个token通常由一个向量表示，这个向量可以被用来在模型训练和生成时表示文本的元素。

在世界被字节化以后，再次会被 token化,随着chatgpt4实现实现图片和文字同时处理的多模态能力，这个能力的底层预示着的其实是「一切数据Token化」的新变革。

不过我们今天要说的Token是AI大模型的数据单位，「一切数据Token化」指的是AI大模型加持下，文字、图片、声音所有数据都能被统一处理的新变革。

OpenAI自己的AI绘画软件Dall-E就是基于GPT-3，用图片数据训练出来的，他们之前还做过分享，一张图片最长会被转化为1024个Token，打个不准确的比方，相当于所有图片都会拉成一个长条，AI是通过这些长条上的数据掌握经验的。

谷歌去年5月在这方面做的更为极致，他们将图片、文字、机器坐标等数据全部Token化，AI经过训练后分类掌握各种经验，然后根据实际情况，匹配对应Token中的经验，一下就拥有了完成600多种任务的能力。

GPT-4这次实现的多模态进化则是再前进了一步，以前图片数据训练出的AI也就是用于生成图片，或者识别某些具体的物品，这次体现出对图片信息更强的理解能力，提供了图片数据处理的新方案，这背后潜在的价值难以估量。

由此我们也会看到，AI的数据需求同样还会继续爆发，在文字数据之后，各种图片数据的标注需求将是新的热点。

我可以这样说，未来所有的数据都会Token化，衡量数据质量的标准将不再是清晰、完整这些为人服务的指标，而是能拿来训练AI的数据才是好数据。

可以说，数据Token化，就相当于石油精炼成汽油的过程，会使得人工智能这个发动机得到广泛运用，最终无所不在。未来各个领域的人工智能水平，甚至能用Token化的数据量大小来做评估。

posted @ 2023-04-25 09:27 海_纳百川阅读(3125) 评论(0) 编辑收藏举报

刷新页面返回顶部

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

大语言模型中的token解释

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

大语言模型中的token解释

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己