03 2019 档案

Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C（3）

摘要：在之前的强化学习文章里，我们讲到了经典的MDP模型来描述强化学习，其解法包括value iteration和policy iteration，这类经典解法基于已知的转移概率矩阵P，而在实际应用中，我们很难具体知道转移概率P。伴随着这类问题的产生，Q-Learning通过迭代来更新Q表拟合实际的转移概阅读全文

posted @ 2019-03-30 16:04 蓝鲸王子阅读(1839) 评论(0) 推荐(0) 编辑

Deep Learning专栏--强化学习之Q-Learning与DQN（2）

摘要：在上一篇文章中介绍了MDP与Bellman方程，MDP可以对强化学习的问题进行建模，Bellman提供了计算价值函数的迭代公式。但在实际问题中，我们往往无法准确获知MDP过程中的转移概率

P

$P$ ，因此无法直接将解决 MDP 问题的经典思路 value iteration 和 policy iterat 阅读全文

posted @ 2019-03-29 15:00 蓝鲸王子阅读(3169) 评论(0) 推荐(1) 编辑

Deep Learning专栏--强化学习之MDP、Bellman方程（1）

摘要：本文主要介绍强化学习的一些基本概念：包括MDP、Bellman方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning。 1. 强化学习基本概念这里还是放上David Silver的课程的图，可以很清楚的看到整个交互过程。这就是人与环境交互的一种模型化表示，在每个时阅读全文

posted @ 2019-03-28 16:53 蓝鲸王子阅读(3981) 评论(0) 推荐(2) 编辑

公告

昵称：蓝鲸王子
园龄： 8年6个月
粉丝： 118
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (105)

随笔档案 (95)

相册 (2)

壁纸(2)

03 2019 档案

公告

搜索

积分与排名

随笔分类 (105)

随笔档案 (95)

相册 (2)

阅读排行榜

评论排行榜

推荐排行榜

最新评论