上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 54 下一页
摘要: #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图 3.了解价值函数,动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动 阅读全文
posted @ 2020-08-16 14:43 feifanren 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 在前面的介绍中,我们都是使用参数θ近似动作值或状态值函数, $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\ 阅读全文
posted @ 2020-08-09 22:04 feifanren 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 下面显示的插图是标准的网格世界,具有开始状态和目标状态,但有一个区别:在网格的中间向上有一个侧风。 这些动作是标准的四个动作-上,下,右和左-但在中间区域,结果产生的下一个状态通过“风”向上移动,其强度随列的不同而变化。 风的强度在每列下方给出,以向上移动的单元数为单位。例如,如果您位于目标右侧的一 阅读全文
posted @ 2020-08-08 20:09 feifanren 阅读(192) 评论(0) 推荐(0) 编辑
摘要: #学习目标 1.了解TD(0)进行预测 2.了解SARSA对策略的控制 3.了解Q-Learning以进行异策略控制 4.了解TD算法相对于MC和DP方法的优势 5.了解n步方法如何统一MC和TD方法 6.了解TD-Lambda的前后视图 #总结 1.D-Learning是Monte Carlo和动 阅读全文
posted @ 2020-08-08 17:06 feifanren 阅读(379) 评论(0) 推荐(0) 编辑
摘要: #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境(MDP)。 在实践中,我们通常对 阅读全文
posted @ 2020-08-06 16:42 feifanren 阅读(685) 评论(0) 推荐(0) 编辑
摘要: #基于模型的动态规划算法 动态规划方法的动态一词指的是问题的顺序或时间组成部分,规划一词指优化一个“程序”,即策略。动态规划是解决复杂问题的一种方法。复杂问题可以分解为很多子问题,解决子问题并把这些子问题结合一起。 动态规划假定完全了解MDP,即已知环境模型。可以用于一个MDP的规划。 动态规划(D 阅读全文
posted @ 2020-08-04 14:54 feifanren 阅读(497) 评论(0) 推荐(0) 编辑
摘要: python调用另一个.py文件中的类和函数 同一文件夹下的调用 1.调用函数 A.py文件如下: def add(x,y): print('和为:%d'%(x+y)) 在B.py文件中调用A.py的add函数如下: import A A.add(1,2) 或 from A import add a 阅读全文
posted @ 2020-08-03 15:47 feifanren 阅读(4450) 评论(0) 推荐(1) 编辑
摘要: 参考:https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程. 阅读全文
posted @ 2020-08-02 20:34 feifanren 阅读(1647) 评论(0) 推荐(0) 编辑
摘要: https://bigquant.com/community/t/topic/121181 阅读全文
posted @ 2020-07-29 17:31 feifanren 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 模型预测控制在实现过程中有3个关键步骤,一般被称为3项基本原理,分别是预测模型、滚动优化和反馈校正。以下分别对这3项基本原理进行介绍。 预测模型:预测模型是模型预测控制的基础。其主要功能是根据对象的历史信息和未来输入,预测系统未来的输出。对预测模型的形式没有做严格的限定,状态方程、传递函数这类传统的 阅读全文
posted @ 2020-07-25 20:46 feifanren 阅读(1779) 评论(0) 推荐(0) 编辑
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 54 下一页