在大型语言模型中,"token"通常指的是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。在NLP中,通常使用tokenization技术将文本分割成token序列。具体来说,tokenization是将一个连续的文本字符串分割成一个个离散的单词或符号的过程。例如,对于英文句子 "The quick brown fox jumps over the lazy dog.",tokenization后会得到一个包含9个token的序列: "The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"。在大型语言模型中,每个token通常由一个向量表示,这个向量可以被用来在模型训练和生成时表示文本的元素。
在世界被字节化以后,再次会被 token化,随着chatgpt4实现实现图片和文字同时处理的多模态能力,这个能力的底层预示着的其实是「一切数据Token化」的新变革。
不过我们今天要说的Token是AI大模型的数据单位,「一切数据Token化」指的是AI大模型加持下,文字、图片、声音所有数据都能被统一处理的新变革。
OpenAI自己的AI绘画软件Dall-E就是基于GPT-3,用图片数据训练出来的,他们之前还做过分享,一张图片最长会被转化为1024个Token,打个不准确的比方,相当于所有图片都会拉成一个长条,AI是通过这些长条上的数据掌握经验的。
谷歌去年5月在这方面做的更为极致,他们将图片、文字、机器坐标等数据全部Token化,AI经过训练后分类掌握各种经验,然后根据实际情况,匹配对应Token中的经验,一下就拥有了完成600多种任务的能力。
GPT-4这次实现的多模态进化则是再前进了一步,以前图片数据训练出的AI也就是用于生成图片,或者识别某些具体的物品,这次体现出对图片信息更强的理解能力,提供了图片数据处理的新方案,这背后潜在的价值难以估量。
由此我们也会看到,AI的数据需求同样还会继续爆发,在文字数据之后,各种图片数据的标注需求将是新的热点。
我可以这样说,未来所有的数据都会Token化,衡量数据质量的标准将不再是清晰、完整这些为人服务的指标,而是能拿来训练AI的数据才是好数据。
可以说,数据Token化,就相当于石油精炼成汽油的过程,会使得人工智能这个发动机得到广泛运用,最终无所不在。未来各个领域的人工智能水平,甚至能用Token化的数据量大小来做评估。