2024-02-04 - LLama系列模型详解 - 卢菁

摘要

2024-02-05 周一 老家 阴转晴

小记: llama与gpt的关系,如何做一个属于自己的大模型,对于业务没啥兴趣,业务就是动态变化的,但是大模型想要落地还是要和业务结合才可以。

课程内容

1. 羊驼简介

  • a. 羊驼是开源的大语言模型,相当于移动互联网时代的安卓(os: 工程师不小心放出来的源码,是无心之举还是有意为之天知道吧);
  • b. gpt的源码是不开源的,相当于苹果的 ios;

关键点: 国内各大公司开始套壳并且宣传自己的大模型,国外是发明创造,国内是落地应用,总的来说这种平衡局势应该还好,相互促进。

技术奶头乐: 和奶头乐一样的道理,故意让一些技术应用简单易得,因此排除竞争对手深入研究。也就是我养你,然后让你只能依附我而生存。陷于奶头乐的技术人永远不可能成为真神。

2. 美洲驼与羊驼

  • 名字来源: LLM 因为发音比较困难,因此加入元音,从而成为了 LLAMA(美洲驼)。
  • 产生: Mate(原facebook)2023年发布的基础 LLM 大模型,该模型有四个版本,分别是 7B,13B,33B,65B参数的大模型;

关键点:
a. 相比之前的大模型,LLaMA 完全是在公开来开源预训练基础上进行的训练;
b. 推理效率也是 LLaMA 的一个亮点,可以在单卡 V100上完成推理;

3. 模型的训练和数据

羊驼大模型的训练需要使用 2048 块 80G 的 GPU ,训练21天左右,没算力能干啥。

4. Alpaca 模型

  • Alpaca 是斯坦福从 Meta 的 LLama 7B 微调而来的全新模型(套壳大法),仅用 52k 数据,性能约等于 GPT-3.5.

  • 大模型趋势:
    a. 训练成本极低,成本不到 600 美元:8个80G 的 A100上训练3个小时不到100美元;
    b. 生成数据使用 OpenAI 的 API ,500美元。(数据标注:问题问 chatgpt,用gpt的回答作为标注数据)

5. Vicuna 模型

UC 伯克利,CMU,斯坦福等机构的学者,联手发布了最新的开源大模型驼马,包含了 7B,13B参数,其中13B参数模型,训练成本仅需要300美元,达到了ChatGpt的90%以上的能力。

6. 华驼模型

基于 LLama 训练的大模型,经过生成的问答实例进行监督微调,实验结果表明,华驼生成的问答具有更加可靠的医学知识。

7. 百川大模型

实质: LLaMA + 中文训练集

总结

心得: 大语言模型类似与操作系统,GPT 和 LLama 还有 GLM 类似于安卓,ios 的操作系统,各种基于基础大模型微调而来的大模型就是国内各大厂商套壳的自家产品。

关键点: 原创大模型有(百度:文心一言;清华: GLM; openAI: GPT ;META: llama ; 谷歌: bart)

现在软件市场就真的是喜欢砸锅,gpt 推出的产品占领市场,Mate 打不过,那就不小心放出来一个 LLaMa ,给大家看看我也是受害者,破坏竞争对手市场,法律也不能把自己怎么办,我突然想到了一个伟大种族的常规做法。

posted @ 2024-02-05 11:42  流雨声  阅读(114)  评论(0编辑  收藏  举报