2024-02-05 - 从零搭建ChatGLM和原理讲解 - 卢菁

摘要

2024-02-05 周一 老家 阴晴不定

课程内容

1. ChatGLM-6B 简介

关键词: 1B = 10 亿

2. ChatGLM-6B 资源规格

3. ChatGLM-6B 微调代码

4. Lora 技术原理

关键词: 模型公式为 Z=WX+wX ,因为 W 相对来说比较大,因此通过增加一个小的变量 w 就可以做到 Z 的变化和调整,因此微调就是增加一个辅助变量从而达到对最后结果的变更的作用,这也是大模型中常用的技术,不然变更 W 付出的代价太大了。

理解: r 就是一个可变的超参,r 越大微调的数据影响也就越大,这个在文生图时做过实验测试,r 的可解释性却比较模糊,目前还没有理论依据,所以把对 r 的调整也就理解为炼丹。

原生模型+外挂就是微调

5. 大模型结构

关键点:
所有的 NLP 大模型都是 transformer 结构

  • Mask attention 的策略不同;
  • 训练任务目标不同;

总结

posted @ 2024-02-05 12:48  流雨声  阅读(61)  评论(0编辑  收藏  举报