关键结论:

开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down

GPT-4模型信息:采用MoE架构,16个experts,800b参数

如何减少幻觉 hallucination?scaling/retrieval/reward model

指令遵循的开源小模型被过度炒作,已经到达瓶颈,突破方向是更强的 Base Model 和更进一步的反馈数据

用不了多久,大家会把80%算力从 Training 转向 Serving

预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本,中间有无数次小版本迭代;

中期来看,RLHF 不应该是 Alignment 的唯一手段, Direct Preference Optimization 和 Stable Alignment 是新路径

长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding

LLM 的 Context Window 就像电脑内存,向量数据库是 LLM 的硬盘

Robot Learning 已成为学界主流研究路线

数学:泛化一般而言跟基础模型大小正相关,跟 SFT 数据总量负相关,跟 SFT 数据丰富度正相关

 

不能指望通过微调来让模型学习更多的知识,这是不靠谱的。目前让模型可靠学习知识的方式只有预训练阶段。

试图微调来让模型扩展知识很可能会导致增加模型的幻觉。

微调只是把预训练阶段学到的知识通过特定方式激发出来,裁剪/特化模型的某些能力,微调之前可能模型并不能很好的体现/输出自己已经学到的信息。

可以将prompt 中“few shot example的指定”通过微调的方式固化到模型中,并可能取得比prompt few shot learning更好的效果。这样同时可以降低prompt的长度,起到节约成本的作用。

微调已经不是目前创业者的重点了,我们有了其他的方式来解决知识问题,例如 function call与通过embedding召回外部知识库。

John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》9提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即 模型并不明确自己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于 回答(胡编乱造),而非反馈不知道

 Token层面的简单策略大多不能期待有语义层面处理的效果;RLHF相对于SFT更多是在语义干预层面的能力,但也由于RLHF的建模是基于Token的,导致RL的step非常长,是RLHF的卡点之一

对于语言生成模型来说,监督学习/指令调优最大的问题是它们只能复制演示者给出的确切答案,但实际上,人类语言可以用多种方式传递相同的信息,它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到“惩罚”,可能会使模型产生困惑。

详细见链接:https://new.qq.com/rain/a/20230711A03VL700?no-redirect=1

 

RLHF形式上是通过在模型的语言空间中采样大量数据、通过RM重新标注并反馈给模型来实现性能提升,其中最关键的一步是采样大量数据,即RLHF有Try-and-error的特点。

用一个问题表达rl比起sl的好处:对于一个在training中见过的input,一个perfect sl model能不能输出比ground truth好的response?那一个用reward model训练的perfect rl model呢?supervised learning的目的是输出最接近ground truth的response,而rlhf要的是return 最大的(最preferred)的response,单纯sl 理论上做不到这一点

posted on 2023-08-03 16:03  风生水起  阅读(144)  评论(0编辑  收藏  举报