大模型是如何训练的?
随着meta的llama流出以后,基于llama的微调模型不断的出现,首先meta只给出了微调模型,并没有给出如何训练的,那作为个人研究者,假设在硬件资源支持的情况下,我们该如何去训练专属自己业务的大模型呢?
首先是数据支持,我们要区分你想训练的是大模型还是多模态,这两个任务的数据集的存储空间是完全不一样的,大模型的训练数据就是纯文字类的,多模态显然会存在图片等其他多媒体信息.
首先我们要收集大模型的训练数据,这部分数据的公开数据集也是挺多的,如果要训练起来还是比较考验硬件的.关于如何制作自己的训练数据集,可以参考我的另一篇博客 https://www.cnblogs.com/chentiao/p/17386131.html
持续写作中,可能断断续续,并且写作格式比较随意,主要自己看得懂,如果你看不懂那我也没办法
斯坦福羊驼大模型训练方式
项目地址: https://github.com/tatsu-lab/stanford_alpaca
硬件:4 A100 80G GPUs
微调设置:
Hyperparameter | LLaMA-7B | LLaMA-13B |
---|---|---|
Batch size | 128 | 128 |
Learning rate | 2e-5 | 1e-5 |
Epochs | 3 | 5 |
Max length | 512 | 512 |
Weight decay | 0 | 0 |
本文来自博客园,作者:海_纳百川,转载请注明原文链接:https://www.cnblogs.com/chentiao/p/17382511.html,如有侵权联系删除