会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
哆啦哆啦
博客园
首页
新随笔
联系
订阅
管理
2022年12月9日
用示范克服强化学习中的探索
摘要: 主要内容: 对比游戏和机器人领域,关键的区别在于探索的难度,这取决于奖励函数的选择和复杂的环境动态性。在博弈中,奖励函数通常是给定的,可以直接进行优化,最新的研究表明,使用稀疏奖励学习可以得到执行期望目标的策略,而不是陷入局部最优。但是奖励稀疏的环境中进行探索是困难的,智能体很少看到奖励信号。本文的
阅读全文
posted @ 2022-12-09 15:48 哆啦哆啦呦
阅读(124)
评论(0)
推荐(0)
编辑
公告