2023 年 5月 6 日随笔档案 - 微笑sun

2023年5月6日

摘要：一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf 1）使用监督数据微调语言模型，和fine-tuning一致。 2）训练奖励模型奖励模型是输入一个文本序列，模型给出符合人类偏好的奖励数值，这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数阅读全文

posted @ 2023-05-06 17:56 微笑sun 阅读(6659) 评论(0) 推荐(0) 编辑

微笑sun

公告