会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
2018年7月28日
《Playing hard exploration games by watching YouTube》论文解读
摘要: 论文链接 油管链接 一、摘要 当环境奖励特别稀疏的时候,强化学习方法通常很难训练(traditionally struggle)。一个有效的方式是通过人类示范者(human demonstrator)提供模仿轨迹(imitate trajectories)来指导强化学习的探索方向,通常的做法是观看人
阅读全文
posted @ 2018-07-28 12:53 initial_h
阅读(1210)
评论(0)
推荐(0)
编辑
公告