08 2020 档案
摘要:一.学习目标 了解基于价值和基于策略的强化学习之间的区别 了解REINFORCE算法(蒙特卡洛策略梯度) 了解Actor-Critic(AC)算法 了解优势函数 了解确定性策略梯度(可选) 了解如何使用异步Actor-Critic算法和神经网络扩展Policy Gradient方法(可选) 1.了解
阅读全文
摘要:强化学习按理解环境的程度可以划分为无模型和有模型,Q-Learning算法是典型的无模型强化学习算法,与有模型的强化学习算法的区别是它的后继状态$[S'][S'][\left( {S,A,
阅读全文
摘要:#学习目标 1.了解表查找中函数逼近的动机 2.了解如何将函数逼近合并到现有算法中 3.了解函数逼近器和RL算法的收敛特性 4.了解使用经验重播的批处理 #总结 1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。 2.
阅读全文
摘要:#学习目标 1.了解Agent-Environment交互 2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图 3.了解价值函数,动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动
阅读全文
摘要:在前面的介绍中,我们都是使用参数θ近似动作值或状态值函数, $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\
阅读全文
摘要:下面显示的插图是标准的网格世界,具有开始状态和目标状态,但有一个区别:在网格的中间向上有一个侧风。 这些动作是标准的四个动作-上,下,右和左-但在中间区域,结果产生的下一个状态通过“风”向上移动,其强度随列的不同而变化。 风的强度在每列下方给出,以向上移动的单元数为单位。例如,如果您位于目标右侧的一
阅读全文
摘要:#学习目标 1.了解TD(0)进行预测 2.了解SARSA对策略的控制 3.了解Q-Learning以进行异策略控制 4.了解TD算法相对于MC和DP方法的优势 5.了解n步方法如何统一MC和TD方法 6.了解TD-Lambda的前后视图 #总结 1.D-Learning是Monte Carlo和动
阅读全文
摘要:#学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境(MDP)。 在实践中,我们通常对
阅读全文
摘要:#基于模型的动态规划算法 动态规划方法的动态一词指的是问题的顺序或时间组成部分,规划一词指优化一个“程序”,即策略。动态规划是解决复杂问题的一种方法。复杂问题可以分解为很多子问题,解决子问题并把这些子问题结合一起。 动态规划假定完全了解MDP,即已知环境模型。可以用于一个MDP的规划。 动态规划(D
阅读全文
摘要:python调用另一个.py文件中的类和函数 同一文件夹下的调用 1.调用函数 A.py文件如下: def add(x,y): print('和为:%d'%(x+y)) 在B.py文件中调用A.py的add函数如下: import A A.add(1,2) 或 from A import add a
阅读全文
摘要:参考:https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程.
阅读全文