2024-02-05 - 从零搭建ChatGLM和原理讲解 - 卢菁

2024-02-05 周一老家阴晴不定

关键词: 1B = 10 亿

关键词: 模型公式为 Z=WX+wX ,因为 W 相对来说比较大，因此通过增加一个小的变量 w 就可以做到 Z 的变化和调整，因此微调就是增加一个辅助变量从而达到对最后结果的变更的作用，这也是大模型中常用的技术，不然变更 W 付出的代价太大了。

理解: r 就是一个可变的超参，r 越大微调的数据影响也就越大，这个在文生图时做过实验测试，r 的可解释性却比较模糊，目前还没有理论依据，所以把对 r 的调整也就理解为炼丹。

原生模型+外挂就是微调

关键点:
所有的 NLP 大模型都是 transformer 结构

posted @ 2024-02-05 12:48 流雨声阅读(61) 评论(0) 编辑收藏举报

刷新页面返回顶部

流雨声