深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节

合集 - 人工智能(65)

1.Python之禅，开宗明义：import this2024-05-03 2.Python深入理解*和**含义和应用2024-05-03 3.[每日AI·0430]首个自主更新的多模态大模型，马斯克访华，文本一键转3D数字人骨骼动画，创新的虚拟试衣模型2024-05-03 4.国内免费的AI工具出色地帮我辅导女儿的小学英语作业2024-05-04 5.[每日AI·0506]巴菲特谈 AI，李飞飞创业，苹果或将推出 AI 功能，ChatGPT 版搜索引擎2024-05-06 6.AI已来，我与AI一起用Python编写了一个消消乐小游戏2024-05-10 7.玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端2024-05-12 8.一文彻底整明白，基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南2024-05-18 9.基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人2024-05-21 10.借助AI大模型，三分钟原创一部儿童故事短视频（附完整操作步骤）2024-05-31 11.[AI资讯·0531] 达摩院医疗AI新里程碑，OpenAI价值数十亿美元，微软投资130亿美元，百度文库成为一站式AI内容获取与创作平台，三大运营商完成AI产品市场，AI获得成功PMF需多次尝试……2024-05-31 12.本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验2024-06-08 13.ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）2024-06-09 14.[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公布165页文件，奥特曼百万年薪挖角谷歌TPU人才……2024-06-09 15.Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人2024-06-12 16.[AI资讯·0618] 快手AI模型可灵在质量优于Sora，OpenAI和谷歌发布新技术推动AI视频推理发展，Gemini1.5Pro在该榜单中表现突出2024-06-18 17.Stable Diffusion 3 大模型文生图“开源英雄”笔记本部署和使用教程，轻松实现AI绘图自由2024-06-18 18.[AI资讯·0622] Claude3.5超越GPT-4o，360推出AI搜索，OpenAI收购Rockset，华为发布大模型2024-06-22 19.Phi-3 模型手机部署教程（微软发布的可与GPT-3.5媲美的小模型）2024-06-23 20.大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama等）2024-06-25 21.使用Llama3/Qwen2等开源大模型，部署团队私有化Code Copilot和使用教程2024-06-30 22.Google 发布了最新的开源大模型 Gemma 2，本地快速部署和体验2024-07-02 23.阿里Qwen2-72B大模型已是开源榜的王者，为什么还要推出其他参数模型，被其他模型打榜？2024-07-04 24.基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）2024-07-06 25.Ollama完整教程：本地LLM管理、WebUI对话、Python/Java客户端API应用2024-07-10 26.LivePortrait 数字人：开源的图生视频模型，本地部署和专业视频制作详细教程2024-07-14 27.基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）2024-07-20 28.太卷了，阿里云免费1个月大模型算力额度，玩转Llama3.1/Qwen2等训练推理2024-07-27 29.PyTorch 训练自定义功能齐全的神经网络模型的详细教程2024-08-02 30.vLLM CPU和GPU模式署和推理 Qwen2 等大语言模型详细教程2024-08-11 31.MiniCPM-V 2.6 面壁“小钢炮”，多图、视频理解多模态模型，部署和推理实战教程2024-08-14 32.InternLM 2.5 书生·浦语开源大模型本地部署体验2024-08-24 33.GLM-4-Flash 大模型API免费了，手把手构建“儿童绘本”应用实战（附源码）2024-08-27 34.ChatTTS 长音频合成和本地部署2种方式，让你的“儿童绘本”发声的实战教程（文末有福利）2024-08-31 35.Agent(智能体)和 MetaGPT，一句话实现整个需求应用代码2024-09-07 36.基于 CrewAI 多智能体框架，手把手构建一个自动化写作应用实战2024-09-15 37.基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程2024-09-21 38.使用世界领先的 Qwen2.5-Math 开源模型当 AI 数学老师，让奥数解题辅导不在鸡飞狗跳（文末有福利）2024-09-28 39.transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载（文末免费送书）2024-10-18 40.transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载（免费送新书）2024-10-27

41.深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节2024-11-01

42.告别 PPT 配图难题！Napkin.ai 轻松打造生动演示文档（文末免费送书）2024-11-04 43.深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解2024-11-09 44.Meissonic 文生图模型：小参数，超轻量，本地部署推理教程2024-11-16 45.Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）2024-11-21 46.Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）2024-12-01 47.Transformers 框架 Pipeline 任务详解：文本分类（text-classification 或 sentiment-analysis）2024-12-05 48.Bolt.new 用一句话快速构建全栈应用：本地部署与应用实战（Ollama/Qwen2.5 等）2024-12-07 49.Transformers 框架 Pipeline 任务详解（三）：词元分类（token-classification）和命名实体识别2024-12-12 50.深入解析 Transformers 框架（五）：嵌入（Embedding）机制和 Word2Vec 词嵌入模型实战2024-12-13 51.Transformers 框架 Pipeline 任务详解（四）：问答（question-answering）2024-12-18 52.Transformers 框架 Pipeline 任务详解（五）：表格问答（table-question-answering）2024-12-22 53.Transformers 框架 Pipeline 任务详解（六）：填充蒙版（fill-mask）2024-12-25 54.深度解析 Transformer 模型中的位置嵌入（Positional Embedding）2024-12-29 55.使用Cursor + Qwen2.5 大模型零经验研发微信小程序：自由构建个性化节拍器应用实战01-03 56.Cline 免费插件 + Qwen2.5 大模型，零经验也能开发“对联王”微信小程序01-12 57.感谢有你，共赴未来：2024年微信公众号创作总结 · 老牛同学01-23 58.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第1天）01-24 59.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第2天）01-26 60.新春“码”启 | Cocos 3D 开发微信小游戏（第3天）：场景搭建与游戏链路基础开发01-28 61.新春“码”启 | Cocos 3D 开发微信小游戏（第4天）：游戏资源设计和框架核心源代码02-01 62.新春“码”启 | Cocos 3D 微信小游戏（第5天）：分包构建和上传发布（完美收官）02-06 63.DeepSeek vs. Qwen 大模型编程能力比拼，谁更适合作为你的 AI 辅助编程助手？02-09 64.欧拉角和四元数，3D 游戏开发中“旋转”难题的通俗讲解和应用实战02-15 65.MNN 手机本地部署 DeepSeek R1 和多模态大模型，告别服务器繁忙！02-21

前面 2 篇文章，我们通过查看 Transformers 包代码，学习了 Transformer 包模块 API 设计、模型初始化和加载流程：

本文是 Transformers 推理 LLM 大语言模型技术细节的第 3 篇，我们将基于 Qwen2.5 大模型，通过走读 Transformers 源代码的方式，来学习AutoTokenizer技术细节：

环境准备：配置虚拟环境，下载 Qwen2.5 模型文件
AutoTokenizer分词器介绍、初始化和存储代码流程的技术细节
Qwen2.5使用的分词算法介绍，和一些常用的 Token 操作用法

环境准备：配置虚拟环境和下载模型文件

【配置虚拟环境】我们可以继续使用在上一篇中我们已经配置好的虚拟环境：

 # Python虚拟环境名：Qwen2.5，版本号：3.10
conda create -n Qwen2.5 python=3.10 -y
# 激活虚拟环境
conda activate Qwen2.5
# 安装必要的Python依赖包
pip install torch
pip install "transformers>=4.43.1"
pip install "accelerate>=0.26.0"

【下载 Qwen2.5 模型文件】我们也可以继续使用在上一篇中下载好的模型文件：

 # Git大文件系统
git lfs install
# 下载模型文件
git clone https://www.modelscope.cn/qwen/Qwen2.5-1.5B-Instruct.git Qwen2.5-1.5B-Instruct
# 若下载过程中异常中断，可以通过`git lfs install`命令继续下载：
# 切换到Git目录
cd Qwen2.5-1.5B-Instruct
# 中断继续下载
git lfs install
git lfs pull

AutoTokenizer 初始化和存储流程

在大模型中，分词就是把模型的输入内容（如：文本序列）转换为Token（也称：词元）序列，Token 是最小的语义单元，且每个 Token 都有相对完整的语义。

如下代码示例，我们可以通过AutoTokenizer.from_pretrained方法初始化分词器：

 import os
 
from transformers import AutoTokenizer
 
# 初始化分词器，从本地文件加载模型
model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Qwen2.5', 'Qwen2.5-1.5B-Instruct')
tokenizer = AutoTokenizer.from_pretrained(
    model_dir,
    local_files_only=True,
)

根据第 1 篇Transformers 包模块设计，我们可以找到AutoTokenizer类定义在./models/auto/tokenization_auto.py模块中，我们可以走读from_pretrained方法执行流程：

第 1 步：AutoTokenizer.from_pretrained解析tokenizer_config.json配置文件，获取tokenizer_class配置项，Qwen2.5 的配置文件中的值为Qwen2Tokenizer：

AutoTokenizer根据配置获取分词器类

第 2 步：默认情况下，Transformers 优先使用带有Fast结尾的、性能更好的分词器实现。因此会先把Qwen2Tokenizer类型转为Qwen2TokenizerFast类，并调用tokenizer_class_from_name()方法加载Qwen2TokenizerFast类：

加载Qwen2TokenizerFast类

最终，成功加载Qwen2TokenizerFast类后，调用Qwen2TokenizerFast.from_pretrained进一步完成初始化。

其中，tokenizer_class_from_name()是一个重要的方法，它的定义如下，我们可以看到它的实现和我们第 1 篇中动态模块加载非常类似：

动态加载Qwen2TokenizerFast类

执行逻辑是从TOKENIZER_MAPPING_NAMES常量中，循环匹配到Qwen2TokenizerFast类型，并且得到qwen2模块名称，为动态加载提供完整的模块路径：

 # ...省略...
(
    "qwen2",
    (
        "Qwen2Tokenizer",
        "Qwen2TokenizerFast" if is_tokenizers_available() else None,
    ),
),
# 说明：is_tokenizers_available() 方法定义在 transformers.utils.import_utils.py 模块中，其值为 True
# ...省略...

从动态加载代码可以看出，Qwen2TokenizerFast类定义在transformers.models.qwen2.tokenization_qwen2_fast.py模块中：

第 3 步：分词器执行Qwen2TokenizerFast.from_pretrained方法，由于Qwen2TokenizerFast -> PreTrainedTokenizerFast -> PreTrainedTokenizerBase类继承链，from_pretrained方法实际在PreTrainedTokenizerBase类定义。

在PreTrainedTokenizerBase.from_pretrained方法中，主要是在收集配置参数文件列表，最终执行Qwen2TokenizerFast._from_pretrained方法，实际还是PreTrainedTokenizerBase._from_pretrained方法：

收集配置文件列表

最终收集到的配置文件不一定都存在，其中 vocab_file/merges_file/tokenizer_file/tokenizer_config_file 存在对应的文件，而 added_tokens_file/special_tokens_map_file 文件却并不存在。文件不存在其实不影响接下来的处理逻辑，因为收集文件的目的是为了解析且内，只要内容存在就可以了，接下来我们将会看到。

第 4 步：解析tokenizer_config.json配置文件，收集初始化参数（init_kwargs变量）：

解析并收集配置参数

其实在第 1 步的时候，为了获取tokenizer_class配置项，这个配置文件就解析过一次。然而在这里再次解析了一次，并且再次获取了一次该配置项！

第 5 步：继续收集参数，包括 3 个配置文件路径，和tokenizer_config.json配置文件中的added_tokens_decoder配置项字典元素内容：

解析并收集配置参数

收集的 3 个文件为 vocab_file/merges_file/tokenizer_file，而added_tokens_decoder配置项内容为特殊 Token ID 和映射。

第 6 步：规整化收集到的特殊 Token 参数，最后进行Qwen2TokenizerFast类实例化：

Qwen2TokenizerFast类实例化

至此，AutoTokenizer.from_pretrained初始化完成，其实我们也可以看到，其实我们直接使用Qwen2TokenizerFast.from_pretrained方法结果一样，并且还可以直接跳过第 1 步和第 2 步解析Qwen2TokenizerFast的处理过程，因此代码执行效率会更高一些。

最后，老牛同学用一张图对上面步骤进行简单总结：

AutoTokenizer初始化流程

接下来，我们可以通过XXXTokenizer.save_pretrained方法存储分词器：

 # 存储分词器
save_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Qwen2.5', 'Qwen2.5-1.5B-Instruct-COPY')
tokenizer.save_pretrained(save_dir)

执行完成，我们可以看到Qwen2.5-1.5B-Instruct-COPY目录中 6 个文件，而这 6 个文件，正是初始化过程中收集的那 6 个文件：

Tokenizer存储文件列表

分词器存储的文件列表中，vocab.json 就是我们的词表文件，文件内容是一个大字典，字典键为 Token，字典值就是对应的 Token ID（从 0 开始）值。

Qwen2.5 字节对编码（Byte Pair Encoding, BPE）分词算法

接着，我们尝试用编辑器打开vocab.json词表文件可以看到：第 1 个 Token 是!，接着是一些数字、字母、标点符号等 Token，这些还好理解；接下来是一些如ort、ass等英语短语，它们不是完整的单词，当然也能看到一些如at、Check、inner等完整单词；在接下来感觉就开始是乱码了，应该不是完整的汉字。最大的 Token ID 为151642代表了词表的大小。

根据上面看到的内容初步判断：Qwen2.5 并不是按照单词或者汉字粒度进行分词，我们也可以从Qwen2TokenizerFast类源代码注释也可以佐证（Based on byte-level Byte-Pair-Encoding.）。

首先有个疑惑：大模型为什么不能按照单个完整的单词或者汉字的粒度进行分词，这样分词的方法不是更加便于理解、同时分词结果也更加直观吗？

老牛同学认为有 2 个主要的考虑因素：

能有效控制 Token 总数量，不至于随着单词或者汉字等词汇的增长而膨胀，可以有效地节省内存和计算资源；同时，当有新造词出现时，无需更新模型的词表。
能有效处理预训练时未遇见或罕见词汇，因为分词算法将这些词汇分解为已知的 Token 单元。

字节对编码（Byte Pair Encoding, BPE）是一种流行的分词算法，它的主要思想是通过迭代合并最常见的字符对来生成词汇表。主要步骤：

初始化词汇表：从字符级别开始，词汇表包含所有出现的字符。
统计字符对频率：统计文本中所有字符对的出现频率。
合并最常见的字符对：将出现频率最高的字符对合并为一个新的 Token，并更新词汇表。
重复步骤 2 和 3：重复上述过程，直到达到预定的词汇表大小或满足预设的停止条件。

举一个简单例子：假设我们的语料库就一句话Hello World.，我们首先统计单词出现频率（“Hello”:1 次，“ ”:1 次，“World”:1 次， “.”:1 次）

第 1 步，初始化词汇表：
第 2 步，统计字符对频率：
第 3 步，合并最常见的字符对：l 和 o 频次最高，组合的 Token 为llo
继续第 2 步，此时词汇表：
继续第 3 步，假设合并 H 和 e 组成新 Token 为He
继续第 2 步，此时词汇表：

假设预设停止合并条件为：词汇表大小不超过 9 个词汇，则此时即完成了词汇表的生成过程。

以上是英文构建词汇表，对于中文来说类是，比如中文语料库：台风又双叒叕来了！

第 1 步，初始化词汇表：'台', '风', '又', '双', '叒', '叕', '来', '了', '！'
第 2 步，统计所有相邻字符对的频率：('台', '风'): 1，('风', '又'): 1，('又', '双'): 1，('双', '叒'): 1，('叒', '叕'): 1，('叕', '来'): 1，('来', '了'): 1，('了', '！'): 1
第 3 步，合并最常见的字符对：由于字符对的频率相同，因此可选择任意一个进行合并，比如合并('台', '风')为：'台风', '又', '双', '叒', '叕', '来', '了', '！'
继续第 2 步，统计频率；然后第 3 步合并字符对，直到达到终止条件

Token 常用操作：分词、编码和解码、添加 Token 等

有了分词器和词表，我们就可以对输入的文件进行分词、映射 ID、根据 Token ID 解码成文本、往词表中添加 Token 等操作。

老牛同学下面展示的代码片段，多次使用 tokenizer 实例，建议使用 Jupyter Lab 编辑器：大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama 等）

 text = 'Transformers分词：台风又双叒叕来了！'
tokens = tokenizer.tokenize(text)
 
print(tokens)
 
# 输出：['Transform', 'ers', 'åĪĨ', 'è¯į', 'ï¼ļ', 'åı°é£İ', 'åıĪ', 'åıĮ', 'åı', 'Ĵ', 'åıķ', 'æĿ¥äºĨ', 'ï¼ģ']

从上述输出可以看出：Transformers单词被分成了Transform和ers两个 Token。我们可以把上面的 Token 映射其 Token ID：

 ids = tokenizer.convert_tokens_to_ids(tokens)
 
print(ids)
 
# 输出：[8963, 388, 17177, 99689, 5122, 108118, 99518, 99493, 5758, 240, 122378, 101161, 6313]

以上 2 步操作的结果，其实可以通过编码方法一步完成：

 # 编码
token_ids = tokenizer.encode(text)
 
print(token_ids)
 
# 输出：[8963, 388, 17177, 99689, 5122, 108118, 99518, 99493, 5758, 240, 122378, 101161, 6313]

可以看出：tokenizer.encode编码操作，其实是上面tokenizer.tokenize分词和tokenizer.convert_tokens_to_ids映射 2 个操作的组合。

Token ID 是计算机识别的，我们可以通过词表和分词器把 Token ID解码成文本内容：

 # 解码
token_text = tokenizer.decode(token_ids)
 
print(token_text)
 
# 输出：Transformers分词：台风又双叒叕来了！

接下来，我们来看看如何往词表中增加 Token：添加普通 Token 和添加特殊 Token。

 # 添加普通Token，词表中已存在的Token会被忽略
new_tokens = ["老牛同学", "imxulin"]
new_tokens = set(new_tokens) - set(tokenizer.vocab.keys())
 
num_add_tokens = tokenizer.add_tokens(list(new_tokens))
 
print(f'新增加 {num_add_tokens}个普通Token到词表。')
 
# 输出：新增加 2个普通Token到词表。

添加特殊 Token 的方法是：add_special_tokens，入参是字典，键只能从bos_token, eos_token, unk_token, sep_token, pad_token, cls_token, mask_token, additional_special_tokens中选择：

 # 添加特殊Token，词表存在则忽略
mew_special_tokens = {'cls_token': '[LNTX]'}
 
num_add_spec_tokens = tokenizer.add_special_tokens(mew_special_tokens)
 
print(f'新增加 {num_add_spec_tokens}个特殊Token到词表。')
print(f'特殊Token值：{tokenizer.cls_token}')
 
# 输出：
# 新增加 1个特殊Token到词表。
# 特殊Token值：[LNTX]

解下来，我们可以验证以下我们添加的 Token 了：

 text = '[LNTX]大家[LNTX]好，我是老牛同学，他是一位[LNTX]大模型[LNTX]爱好者！'
tokens = tokenizer.tokenize(text)
 
print(tokens)
 
# 输出：['å¤§å®¶', '[LNTX]', 'å¥½', 'ï¼Į', 'æĪĳæĺ¯', '老牛同学', 'ï¼Į', 'ä»ĸ', 'æĺ¯ä¸Ģä½į', 'å¤§', 'æ¨¡åŀĭ', '[LNTX]', 'çĪ±å¥½èĢħ', 'ï¼ģ']

根据输出我们可以看到：新添加的[LNTX]特殊 Token，和老牛同学普通 Token，在分词结果中都直接作为了一个完整的 Token，没有被进一步的切分。

最后，当我们更新了词表后，为了能让大模型推理过程能正常进行，我们还需要调整模型的 embedding 矩阵大小：

 print(f'调整前：{model.model.embed_tokens.weight.size()}')
 
model.resize_token_embeddings(len(tokenizer))
 
print(f'调整后：{model.model.embed_tokens.weight.size()}')
 
# 输出：
# 调整前：torch.Size([151936, 1536])
# 调整后：torch.Size([151668, 1536])

分词器的其他用法，如编码和解码多段文本、Token ID 张量填充对齐、超长截断等，请大家阅读官网，有中文版：https://hf-mirror.com/docs/transformers/v4.46.0/zh/index

vLLM CPU 和 GPU 模式署和推理 Qwen2 等大语言模型详细教程

基于 Qwen2/Lllama3 等大模型，部署团队私有化 RAG 知识库系统的详细教程（Docker+AnythingLLM）

使用 Llama3/Qwen2 等开源大模型，部署团队私有化 Code Copilot 和使用教程

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

ChatTTS 长音频合成和本地部署 2 种方式，让你的“儿童绘本”发声的实战教程

transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 包和对象加载

transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载

微信公众号：老牛同学

posted @ 2024-11-01 20:24 老牛啊阅读(1433) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解

· transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载（免费送新书）

· Transformers-源码解析-六十二-

· Transformers-源码解析-四十一-

· Transformers-源码解析-一百二十三-

阅读排行：
· 10亿数据，如何做迁移？
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 推荐几款开源且免费的 .NET MAUI 组件库
· 易语言 —— 开山篇
· Trae初体验

奔跑的蜗牛·老牛同学

奔跑的蜗牛，记录的点滴：https://ntopic.cn

深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节

环境准备：配置虚拟环境和下载模型文件

AutoTokenizer 初始化和存储流程

Qwen2.5 字节对编码（Byte Pair Encoding, BPE）分词算法

Token 常用操作：分词、编码和解码、添加 Token 等

公告

常用链接

我的标签

合集 (6)

随笔分类 (137)

博客空间

阅读排行榜

推荐排行榜

	# Python虚拟环境名：Qwen2.5，版本号：3.10
	conda create -n Qwen2.5 python=3.10 -y

	# 激活虚拟环境
	conda activate Qwen2.5

	# 安装必要的Python依赖包
	pip install torch
	pip install "transformers>=4.43.1"
	pip install "accelerate>=0.26.0"

	# Git大文件系统
	git lfs install

	# 下载模型文件
	git clone https://www.modelscope.cn/qwen/Qwen2.5-1.5B-Instruct.git Qwen2.5-1.5B-Instruct

	# 若下载过程中异常中断，可以通过`git lfs install`命令继续下载：
	# 切换到Git目录
	cd Qwen2.5-1.5B-Instruct

	# 中断继续下载
	git lfs install
	git lfs pull

	import os

	from transformers import AutoTokenizer

	# 初始化分词器，从本地文件加载模型
	model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Qwen2.5', 'Qwen2.5-1.5B-Instruct')
	tokenizer = AutoTokenizer.from_pretrained(
	model_dir,
	local_files_only=True,
	)

	# ...省略...
	(
	"qwen2",
	(
	"Qwen2Tokenizer",
	"Qwen2TokenizerFast" if is_tokenizers_available() else None,
	),
	),
	# 说明：is_tokenizers_available() 方法定义在 transformers.utils.import_utils.py 模块中，其值为 True
	# ...省略...

	# 存储分词器
	save_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Qwen2.5', 'Qwen2.5-1.5B-Instruct-COPY')
	tokenizer.save_pretrained(save_dir)

	text = 'Transformers分词：台风又双叒叕来了！'
	tokens = tokenizer.tokenize(text)

	print(tokens)

	# 输出：['Transform', 'ers', 'åĪĨ', 'è¯į', 'ï¼ļ', 'åı°é£İ', 'åıĪ', 'åıĮ', 'åı', 'Ĵ', 'åıķ', 'æĿ¥äºĨ', 'ï¼ģ']

	ids = tokenizer.convert_tokens_to_ids(tokens)

	print(ids)

	# 输出：[8963, 388, 17177, 99689, 5122, 108118, 99518, 99493, 5758, 240, 122378, 101161, 6313]

	# 编码
	token_ids = tokenizer.encode(text)

	print(token_ids)

	# 输出：[8963, 388, 17177, 99689, 5122, 108118, 99518, 99493, 5758, 240, 122378, 101161, 6313]

	# 解码
	token_text = tokenizer.decode(token_ids)

	print(token_text)

	# 输出：Transformers分词：台风又双叒叕来了！

	# 添加普通Token，词表中已存在的Token会被忽略
	new_tokens = ["老牛同学", "imxulin"]
	new_tokens = set(new_tokens) - set(tokenizer.vocab.keys())

	num_add_tokens = tokenizer.add_tokens(list(new_tokens))

	print(f'新增加 {num_add_tokens}个普通Token到词表。')

	# 输出：新增加 2个普通Token到词表。

	# 添加特殊Token，词表存在则忽略
	mew_special_tokens = {'cls_token': '[LNTX]'}

	num_add_spec_tokens = tokenizer.add_special_tokens(mew_special_tokens)

	print(f'新增加 {num_add_spec_tokens}个特殊Token到词表。')
	print(f'特殊Token值：{tokenizer.cls_token}')

	# 输出：
	# 新增加 1个特殊Token到词表。
	# 特殊Token值：[LNTX]

	text = '[LNTX]大家[LNTX]好，我是老牛同学，他是一位[LNTX]大模型[LNTX]爱好者！'
	tokens = tokenizer.tokenize(text)

	print(tokens)

	# 输出：['å¤§å®¶', '[LNTX]', 'å¥½', 'ï¼Į', 'æĪĳæĺ¯', '老牛同学', 'ï¼Į', 'ä»ĸ', 'æĺ¯ä¸Ģä½į', 'å¤§', 'æ¨¡åŀĭ', '[LNTX]', 'çĪ±å¥½èĢħ', 'ï¼ģ']

	print(f'调整前：{model.model.embed_tokens.weight.size()}')

	model.resize_token_embeddings(len(tokenizer))

	print(f'调整后：{model.model.embed_tokens.weight.size()}')

	# 输出：
	# 调整前：torch.Size([151936, 1536])
	# 调整后：torch.Size([151668, 1536])