大模型是如何训练的?

随着meta的llama流出以后,基于llama的微调模型不断的出现,首先meta只给出了微调模型,并没有给出如何训练的,那作为个人研究者,假设在硬件资源支持的情况下,我们该如何去训练专属自己业务的大模型呢?

首先是数据支持,我们要区分你想训练的是大模型还是多模态,这两个任务的数据集的存储空间是完全不一样的,大模型的训练数据就是纯文字类的,多模态显然会存在图片等其他多媒体信息.

首先我们要收集大模型的训练数据,这部分数据的公开数据集也是挺多的,如果要训练起来还是比较考验硬件的.关于如何制作自己的训练数据集,可以参考我的另一篇博客 https://www.cnblogs.com/chentiao/p/17386131.html