会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
蓝鲸王子
机器学习、深度学习、分布式计算研究者
博客园
首页
联系
订阅
管理
2019年3月30日
Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C(3)
摘要: 在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P。伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概
阅读全文
posted @ 2019-03-30 16:04 蓝鲸王子
阅读(1785)
评论(0)
推荐(0)
编辑
公告