会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
liubilan
缘如过江之鲫,行之匆匆
博客园
首页
新随笔
联系
订阅
管理
2020年9月26日
深度强化学习方法 策略迭代 & 值迭代
摘要: RL是一个序列化决策过程,核心思想是通过与环境的不断交互学习获得最大回报; 大部分RL方法都是基于MDP的;MDP的本质是获得一个可以使累计收益最大化的策略,并使用该策略选择最佳动作; 动态规划是RL中的一个关键技术,适用于RL中已知模型求解最优策略的特殊情况,主要有 策略迭代 和 值迭代 两种方法
阅读全文
posted @ 2020-09-26 12:04 liubilan
阅读(1266)
评论(0)
推荐(0)
编辑
公告