摘要: 1、解决问题 使用强化学习训练模型,可能会使模型与奖励函数过拟合,造成奖励黑客行为(reward hacking),也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的,这是因为奖励函数不能非常正确的表达出生成描述的质量,一些错误的表示可能反而有很高的奖励,尤其是对描述的命题内容和独特性的奖励 阅读全文
posted @ 2022-03-24 09:24 EkkoMay 阅读(89) 评论(0) 推荐(0) 编辑