会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Dear蜡笔小红
博客园
首页
新随笔
联系
订阅
管理
2022年3月24日
Meta Learning for Image Captioning论文笔记
摘要: 1、解决问题 使用强化学习训练模型,可能会使模型与奖励函数过拟合,造成奖励黑客行为(reward hacking),也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的,这是因为奖励函数不能非常正确的表达出生成描述的质量,一些错误的表示可能反而有很高的奖励,尤其是对描述的命题内容和独特性的奖励
阅读全文
posted @ 2022-03-24 09:24 EkkoMay
阅读(89)
评论(0)
推荐(0)
编辑
公告