2019 年 3月 30 日随笔档案 - 蓝鲸王子

2019年3月30日

Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C（3）

摘要：在之前的强化学习文章里，我们讲到了经典的MDP模型来描述强化学习，其解法包括value iteration和policy iteration，这类经典解法基于已知的转移概率矩阵P，而在实际应用中，我们很难具体知道转移概率P。伴随着这类问题的产生，Q-Learning通过迭代来更新Q表拟合实际的转移概阅读全文

posted @ 2019-03-30 16:04 蓝鲸王子阅读(1805) 评论(0) 推荐(0) 编辑

公告