03 2019 档案
摘要:在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P。伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概
阅读全文
摘要:在上一篇文章中介绍了MDP与Bellman方程,MDP可以对强化学习的问题进行建模,Bellman提供了计算价值函数的迭代公式。但在实际问题中,我们往往无法准确获知MDP过程中的转移概率,因此无法直接将解决 MDP 问题的经典思路 value iteration 和 policy iterat
阅读全文
摘要:本文主要介绍强化学习的一些基本概念:包括MDP、Bellman方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning。 1. 强化学习基本概念 这里还是放上David Silver的课程的图,可以很清楚的看到整个交互过程。这就是人与环境交互的一种模型化表示,在每个时
阅读全文