大模型是如何训练的?

随着meta的llama流出以后,基于llama的微调模型不断的出现,首先meta只给出了微调模型,并没有给出如何训练的,那作为个人研究者,假设在硬件资源支持的情况下,我们该如何去训练专属自己业务的大模型呢?

首先是数据支持,我们要区分你想训练的是大模型还是多模态,这两个任务的数据集的存储空间是完全不一样的,大模型的训练数据就是纯文字类的,多模态显然会存在图片等其他多媒体信息.

首先我们要收集大模型的训练数据,这部分数据的公开数据集也是挺多的,如果要训练起来还是比较考验硬件的.关于如何制作自己的训练数据集,可以参考我的另一篇博客 https://www.cnblogs.com/chentiao/p/17386131.html

持续写作中,可能断断续续,并且写作格式比较随意,主要自己看得懂,如果你看不懂那我也没办法

斯坦福羊驼大模型训练方式

项目地址: https://github.com/tatsu-lab/stanford_alpaca

硬件:4 A100 80G GPUs

微调设置:

HyperparameterLLaMA-7BLLaMA-13B
Batch size 128 128
Learning rate 2e-5 1e-5
Epochs 3 5
Max length 512 512
Weight decay 0 0
posted @ 2023-05-08 17:52  海_纳百川  阅读(408)  评论(0编辑  收藏  举报
本站总访问量