2023 年 9月 16 日随笔档案 - 扫地升

2023年9月16日

摘要：因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese 阅读全文

posted @ 2023-09-16 22:32 扫地升阅读(1795) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：2.1-Atom-7B预训练

摘要：虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，阅读全文

posted @ 2023-09-16 22:31 扫地升阅读(1781) 评论(0) 推荐(3) 编辑