2020 年 8月随笔档案 - feifanren

强化学习学习笔记：Policy Gradient Methods

摘要：一.学习目标了解基于价值和基于策略的强化学习之间的区别了解REINFORCE算法（蒙特卡洛策略梯度）了解Actor-Critic（AC）算法了解优势函数了解确定性策略梯度（可选）了解如何使用异步Actor-Critic算法和神经网络扩展Policy Gradient方法（可选） 1.了解阅读全文

posted @ 2020-08-29 12:13 feifanren 阅读(523) 评论(0) 推荐(0) 编辑

强化学习学习笔记：Q-learning无模型算法

摘要：强化学习按理解环境的程度可以划分为无模型和有模型,Q-Learning算法是典型的无模型强化学习算法,与有模型的强化学习算法的区别是它的后继状态$[S']

未 知 ， 只 能 通 过 与 环 境 交 互 以 试 验 和 采 样 的 方 法 得 到 一 个 后 继 状 态

$未知，只能通过与环境交互以试验和采样的方法得到一个后继状态$ [S']

。 所 以 Q - L e a r n i n g 算 法 仅 由 元 组

$。所以Q-Learning算法仅由元组$ [\left( {S,A, 阅读全文

posted @ 2020-08-26 20:58 feifanren 阅读(1486) 评论(0) 推荐(0) 编辑

强化学习学习笔记（五）：值函数估计

摘要：#学习目标 1.了解表查找中函数逼近的动机 2.了解如何将函数逼近合并到现有算法中 3.了解函数逼近器和RL算法的收敛特性 4.了解使用经验重播的批处理 #总结 1.建立一个大表（每个状态或状态-动作对一个值）会导致内存和数据效率低下。通过使用特征化状态表示，函数逼近可以推广到看不见的状态。 2. 阅读全文

posted @ 2020-08-24 10:37 feifanren 阅读(514) 评论(0) 推荐(0) 编辑

强化学习学习笔记（1）：MDPs and Bellman Equations

摘要：#学习目标 1.了解Agent-Environment交互 2.了解什么是MDP（马尔可夫决策过程）以及如何解释过渡图 3.了解价值函数，动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互：智能体在每个步骤t接收状态S_t，执行动阅读全文

posted @ 2020-08-16 14:43 feifanren 阅读(247) 评论(0) 推荐(0) 编辑

强化学习学习笔记（5）：

摘要：在前面的介绍中，我们都是使用参数θ近似动作值或状态值函数， $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\ 阅读全文

posted @ 2020-08-09 22:04 feifanren 阅读(236) 评论(0) 推荐(0) 编辑

强化学习实战（四）：Sarsa and Q-learning

摘要：下面显示的插图是标准的网格世界，具有开始状态和目标状态，但有一个区别：在网格的中间向上有一个侧风。这些动作是标准的四个动作-上，下，右和左-但在中间区域，结果产生的下一个状态通过“风”向上移动，其强度随列的不同而变化。风的强度在每列下方给出，以向上移动的单元数为单位。例如，如果您位于目标右侧的一阅读全文

posted @ 2020-08-08 20:09 feifanren 阅读(200) 评论(0) 推荐(0) 编辑

强化学习学习笔记（四）：具有时差（TD）和Q学习的无模型预测与控制

摘要：#学习目标 1.了解TD（0）进行预测 2.了解SARSA对策略的控制 3.了解Q-Learning以进行异策略控制 4.了解TD算法相对于MC和DP方法的优势 5.了解n步方法如何统一MC和TD方法 6.了解TD-Lambda的前后视图 #总结 1.D-Learning是Monte Carlo和动阅读全文

posted @ 2020-08-08 17:06 feifanren 阅读(436) 评论(0) 推荐(0) 编辑

强化学习学习笔记（三）-蒙特卡洛（MC）的无模型预测和控制

摘要：#学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境（MDP）。在实践中，我们通常对阅读全文

posted @ 2020-08-06 16:42 feifanren 阅读(784) 评论(0) 推荐(0) 编辑

强化学习学习笔记（二）-基于模型的动态规划方法

摘要：#基于模型的动态规划算法动态规划方法的动态一词指的是问题的顺序或时间组成部分，规划一词指优化一个“程序”，即策略。动态规划是解决复杂问题的一种方法。复杂问题可以分解为很多子问题，解决子问题并把这些子问题结合一起。动态规划假定完全了解MDP，即已知环境模型。可以用于一个MDP的规划。动态规划（D 阅读全文

posted @ 2020-08-04 14:54 feifanren 阅读(577) 评论(0) 推荐(0) 编辑

python调用另一个.py文件中的类和函数

摘要：python调用另一个.py文件中的类和函数同一文件夹下的调用 1.调用函数 A.py文件如下： def add(x,y): print('和为：%d'%(x+y)) 在B.py文件中调用A.py的add函数如下： import A A.add(1,2) 或 from A import add a 阅读全文

posted @ 2020-08-03 15:47 feifanren 阅读(4528) 评论(0) 推荐(1) 编辑

强化学习实战（1）：gridworld

摘要：参考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程. 阅读全文

posted @ 2020-08-02 20:34 feifanren 阅读(1741) 评论(0) 推荐(0) 编辑

feifanren

08 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

666