摘要: Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pre 阅读全文
posted @ 2023-10-01 11:50 China Soft 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese 阅读全文
posted @ 2023-10-01 11:49 China Soft 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中: 微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见, 阅读全文
posted @ 2023-10-01 11:49 China Soft 阅读(253) 评论(0) 推荐(0) 编辑
摘要: Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示: FlagAlpha/Atom-7B FlagAlpha/Llama 阅读全文
posted @ 2023-10-01 11:48 China Soft 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式如下所示: "<s>Human: "+问题+"\n</s><s>Assistant: "+答案 举个例子,如下所示: <s>Human: 用一句话描述地球为什么是独 阅读全文
posted @ 2023-10-01 11:47 China Soft 阅读(40) 评论(0) 推荐(0) 编辑