Tokenizer分词器-OpenAI API系统快速入门

GPT 系列模型使用标记处理文本，标记是在文本中找到的常见字符序列。这些模型了解这些令牌之间的统计关系，并擅长在令牌序列中生成下一个令牌。

您可以使用下面的工具来了解 API 如何标记一段文本，以及该文本中的标记总数。

一个有用的经验法则是，对于常见的英语文本，一个标记通常对应于 ~4 个字符的文本。这相当于大约一个单词的 3/4（所以 100 个标记 ~= 75 个单词）。

如果您需要一个用于标记文本的编程接口，请查看 python 的转换器包或 node.js 的gpt-3-encoder包。

posted @ 2023-02-13 10:57 JackYang 阅读(648) 评论(1) 收藏举报

刷新页面返回顶部