06 2023 档案
摘要:TP格式转HF 指令 python3 scripts/convert_llama_from_tencentpretrain_to_hf.py \ --tp_model_dir /cpfs01/shared/public/xulifeng_work/ChatFlow-7B_Tmp/ \ --input
阅读全文
摘要:LoRA: Low-Rank Adaptation of Large Language Models 动机 大模型的参数量都在100B级别,由于算力的吃紧,在这个基础上进行所有参数的微调变得不可能。LoRA正是在这个背景下提出的解决方案。 原理 虽然模型的参数众多,但其实模型主要依赖低秩维度的内容(
阅读全文