2023 年 10月 1 日随笔档案 - China Soft

2023年10月1日

摘要： Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pre 阅读全文

posted @ 2023-10-01 11:50 China Soft 阅读(111) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：2.2-大语言模型词表扩充

摘要：因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese 阅读全文

posted @ 2023-10-01 11:49 China Soft 阅读(125) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：2.1-Atom-7B预训练

摘要：虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，阅读全文

posted @ 2023-10-01 11:49 China Soft 阅读(253) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：1-项目介绍和模型推理

摘要： Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示： FlagAlpha/Atom-7B FlagAlpha/Llama 阅读全文

posted @ 2023-10-01 11:48 China Soft 阅读(140) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：3.1-全量参数微调

摘要：提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式如下所示： "<s>Human: "+问题+"\n</s><s>Assistant: "+答案举个例子，如下所示： <s>Human: 用一句话描述地球为什么是独阅读全文

posted @ 2023-10-01 11:47 China Soft 阅读(40) 评论(0) 推荐(0) 编辑

China soft

chinasoft.cnblogs.com

公告