2022 年 3月 24 日随笔档案 - EkkoMay

2022年3月24日

摘要： 1、解决问题使用强化学习训练模型，可能会使模型与奖励函数过拟合，造成奖励黑客行为（reward hacking），也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的，这是因为奖励函数不能非常正确的表达出生成描述的质量，一些错误的表示可能反而有很高的奖励，尤其是对描述的命题内容和独特性的奖励阅读全文

posted @ 2022-03-24 09:24 EkkoMay 阅读(89) 评论(0) 推荐(0) 编辑

Dear蜡笔小红

公告