基于LLaMA的指令微调模型--Alpaca(大羊驼),Vicuna(小羊驼)
Alpaca-7B
文章:https://crfm.stanford.edu/2023/03/13/alpaca.html
想要在预算内训练一个高质量的指令微调模型,就必须面临2个重要的挑战:
-
一个强大的预训练语言模型
- LLaMA
-
一个高质量的指令遵循数据
- Self-Instruct: Aligning Language Model with Self Generated Instructions
Vicuna-13B
具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:
-
收集ShareGPT网站上的高质量指令数据微调模型
-
第一次提出用GPT-4来对各个模型的回答做评价,抛弃了之前的自动化评价指标(bleu,rouge)