大模型（LLM）最新趋势总结 - 风生水起

大模型（LLM）最新趋势总结

关键结论：

开源社区模型不具备真正智能，更好的小模型来自大模型的 Scale Down

GPT-4模型信息：采用MoE架构，16个experts，800b参数

如何减少幻觉 hallucination？scaling/retrieval/reward model

指令遵循的开源小模型被过度炒作，已经到达瓶颈，突破方向是更强的 Base Model 和更进一步的反馈数据

用不了多久，大家会把80%算力从 Training 转向 Serving

预计未来模型的迭代节奏会很像手机系统：1-2 年更新一次大版本，中间有无数次小版本迭代；

中期来看，RLHF 不应该是 Alignment 的唯一手段， Direct Preference Optimization 和 Stable Alignment 是新路径

长期来看，小版本迭代的角度：隐私/权限的增强、更多的图片/文件/声音格式的 Embedding

LLM 的 Context Window 就像电脑内存，向量数据库是 LLM 的硬盘

Robot Learning 已成为学界主流研究路线

数学：泛化一般而言跟基础模型大小正相关，跟 SFT 数据总量负相关，跟 SFT 数据丰富度正相关

不能指望通过微调来让模型学习更多的知识，这是不靠谱的。目前让模型可靠学习知识的方式只有预训练阶段。

试图微调来让模型扩展知识很可能会导致增加模型的幻觉。

微调只是把预训练阶段学到的知识通过特定方式激发出来，裁剪/特化模型的某些能力，微调之前可能模型并不能很好的体现/输出自己已经学到的信息。

可以将prompt 中“few shot example的指定”通过微调的方式固化到模型中，并可能取得比prompt few shot learning更好的效果。这样同时可以降低prompt的长度，起到节约成本的作用。

微调已经不是目前创业者的重点了，我们有了其他的方式来解决知识问题，例如 function call与通过embedding召回外部知识库。

John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》9提到，SFT 与其等价的 BC 存在固有缺陷，即训练越充分越容易出现欺骗（即模型并不明确自己知识的边界），RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈，而且对偏离样本的惩罚较重，RL 多样性更好，因而在面对不知道的问题时，SL 训练充分的模型倾向于回答（胡编乱造），而非反馈不知道

Token层面的简单策略大多不能期待有语义层面处理的效果；RLHF相对于SFT更多是在语义干预层面的能力，但也由于RLHF的建模是基于Token的，导致RL的step非常长，是RLHF的卡点之一

对于语言生成模型来说，监督学习/指令调优最大的问题是它们只能复制演示者给出的确切答案，但实际上，人类语言可以用多种方式传递相同的信息，它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到“惩罚”，可能会使模型产生困惑。

详细见链接：https://new.qq.com/rain/a/20230711A03VL700?no-redirect=1

RLHF形式上是通过在模型的语言空间中采样大量数据、通过RM重新标注并反馈给模型来实现性能提升，其中最关键的一步是采样大量数据，即RLHF有Try-and-error的特点。

用一个问题表达rl比起sl的好处：对于一个在training中见过的input，一个perfect sl model能不能输出比ground truth好的response？那一个用reward model训练的perfect rl model呢？supervised learning的目的是输出最接近ground truth的response，而rlhf要的是return 最大的(最preferred)的response，单纯sl 理论上做不到这一点

posted on 2023-08-03 16:03 风生水起阅读(144) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部