HuggingFace Transformer 模型下面都有些什么内容?
以 Qwen2.5-0.5B 模型为例,看一下具体都有哪些文件。
首先将 Hugging Face 上的模型拉下来 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B
,如果模型太大的话,可以执行 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B --depth 1
,只下载最新版本的模型就行了。
下载完能看到有以下文件:
config.json
merges.txt
tokenizer_config.json
generation_config.json
model.safetensors
tokenizer.json
LICENSE
README.md
vocab.json
其中最重要的就是 model.safetensors
了,保存了神经网络所有的参数,也是体积最大的文件。
config.json
、generation_config.json
中保存了模型的一些基础信息。
再来看一下几个跟文本的 tokenization 相关的文件,分别包含了以下内容:
vocab.json
token 与其序号的对应关系merges.txt
合并后的 token 字符串,比如词根teach
,对应的单词在这个文件中有6行对应的:Ġteach er
、Ġteach ing
、Ġteach ers
、Ġteach es
、Ġteach ings
、. teacher
tokenizer_config.json
tokenizer 的配置,包含了训练中用到的一些特殊字符的 token,比如<|im_start|>
、<|endoftext|>
tokenizer.json
包含了词表、merges 和特殊 token
如果仔细看一下 vocab.json
文件的内容,并不能找到中文字符对应的 token,但是 Qwen 模型是支持中文的,这是怎么处理的呢,原来这里还多加了一层编码。比如中文的“有”字,在文件中对应的字符是 ä¼ļ
对应的序号是 36993
,可以通过 tokenizer.convert_ids_to_tokens
方法来进行转换
标签:
LLM
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)