RLChina理论三:强化学习基础
强化学习基础
马尔可夫决策过程就是在,环境自发做出转变,是个随波逐流的过程,At是智能体的行动,在St环境状态下加入At动作,c才进入下个状态S(t+1),即环境有自己的变化,也加入了智能体的决策。
有无监督学习与强化学习的区别
价值迭代和策略迭代区别
uploading-image-839474.png
五、无模型控制方法
只知道数据,不知道环境的转移函数是什么,常见的两种算法法
(1)SARSA
(2)Q学习,可以再次利用与环境交互产生的数据
价值函数近似算法
使用参数化的模型,来不断调整参数,来逼近和
在训练过程中两者都在发生变化,由于参数可导,可以用链式法则去更新参数是θ。
策略梯度(强化学习得精髓)
A2动作得到正向得奖励,增大选择A2动作的概率,适当降低其他动作的选这概率,同理A3得到负的奖励,降低选择A3动作的概率,适当增加其他动作的概率。这就是一个交互性、试错性的学习。