feifanren

2020年8月16日

摘要： #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP（马尔可夫决策过程）以及如何解释过渡图 3.了解价值函数，动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互：智能体在每个步骤t接收状态S_t，执行动阅读全文

posted @ 2020-08-16 14:43 feifanren 阅读(238) 评论(0) 推荐(0) 编辑

2020年8月9日

强化学习学习笔记（5）：

摘要：在前面的介绍中，我们都是使用参数θ近似动作值或状态值函数， $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\ 阅读全文

posted @ 2020-08-09 22:04 feifanren 阅读(226) 评论(0) 推荐(0) 编辑

2020年8月8日

强化学习实战（四）：Sarsa and Q-learning

摘要：下面显示的插图是标准的网格世界，具有开始状态和目标状态，但有一个区别：在网格的中间向上有一个侧风。这些动作是标准的四个动作-上，下，右和左-但在中间区域，结果产生的下一个状态通过“风”向上移动，其强度随列的不同而变化。风的强度在每列下方给出，以向上移动的单元数为单位。例如，如果您位于目标右侧的一阅读全文

posted @ 2020-08-08 20:09 feifanren 阅读(195) 评论(0) 推荐(0) 编辑

强化学习学习笔记（四）：具有时差（TD）和Q学习的无模型预测与控制

摘要： #学习目标 1.了解TD（0）进行预测 2.了解SARSA对策略的控制 3.了解Q-Learning以进行异策略控制 4.了解TD算法相对于MC和DP方法的优势 5.了解n步方法如何统一MC和TD方法 6.了解TD-Lambda的前后视图 #总结 1.D-Learning是Monte Carlo和动阅读全文

posted @ 2020-08-08 17:06 feifanren 阅读(400) 评论(0) 推荐(0) 编辑

2020年8月6日

强化学习学习笔记（三）-蒙特卡洛（MC）的无模型预测和控制

摘要： #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境（MDP）。在实践中，我们通常对阅读全文

posted @ 2020-08-06 16:42 feifanren 阅读(728) 评论(0) 推荐(0) 编辑

2020年8月4日

强化学习学习笔记（二）-基于模型的动态规划方法

摘要： #基于模型的动态规划算法动态规划方法的动态一词指的是问题的顺序或时间组成部分，规划一词指优化一个“程序”，即策略。动态规划是解决复杂问题的一种方法。复杂问题可以分解为很多子问题，解决子问题并把这些子问题结合一起。动态规划假定完全了解MDP，即已知环境模型。可以用于一个MDP的规划。动态规划（D 阅读全文

posted @ 2020-08-04 14:54 feifanren 阅读(532) 评论(0) 推荐(0) 编辑

2020年8月3日

python调用另一个.py文件中的类和函数

摘要： python调用另一个.py文件中的类和函数同一文件夹下的调用 1.调用函数 A.py文件如下： def add(x,y): print('和为：%d'%(x+y)) 在B.py文件中调用A.py的add函数如下： import A A.add(1,2) 或 from A import add a 阅读全文

posted @ 2020-08-03 15:47 feifanren 阅读(4518) 评论(0) 推荐(1) 编辑

2020年8月2日

强化学习实战（1）：gridworld

摘要：参考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程. 阅读全文

posted @ 2020-08-02 20:34 feifanren 阅读(1694) 评论(0) 推荐(0) 编辑

2020年7月29日

强化学习实战

摘要： https://bigquant.com/community/t/topic/121181 阅读全文

posted @ 2020-07-29 17:31 feifanren 阅读(166) 评论(0) 推荐(0) 编辑

2020年7月25日

模型预测控制介绍

摘要：模型预测控制在实现过程中有3个关键步骤，一般被称为3项基本原理，分别是预测模型、滚动优化和反馈校正。以下分别对这3项基本原理进行介绍。预测模型：预测模型是模型预测控制的基础。其主要功能是根据对象的历史信息和未来输入，预测系统未来的输出。对预测模型的形式没有做严格的限定，状态方程、传递函数这类传统的阅读全文

posted @ 2020-07-25 20:46 feifanren 阅读(1856) 评论(0) 推荐(0) 编辑

公告