随笔分类 - 强化学习
强化学习的探索策略方式
摘要:https://blog.csdn.net/xyk_hust/article/details/86702700 1 固定值的贪婪策略 固定贪婪策略的值,使得算法整个运行过程中保持一定的探索。实现方式直接而简单,在不少情况下对收敛性的负面影响并不大,尤其是奖励常常取负值时候。 通常应用在状态空间有限的
李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿
摘要:效果不太好 稀疏奖励中的好奇心 curiosity模型中,在原来DQN的基础上,建立了Network1,用于在𝑎_𝑡和𝑠_𝑡的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。 引入了Network2,将输入的两个
李宏毅的强化学习视频用于梳理翻阅(3)值
摘要:估计价值的方法MC与TD MC(Monte-Carlo)的方法,在Sutton的书中有比较权威并详细的说明。地址:https://rl.qiwihui.com/zh_CN/latest/index.html 下图是首次访问型的MC方法,估计状态的价值V。在初始化后,先根据策略获取一个完整的序列,然后
李宏毅的强化学习视频用于梳理翻阅(2)策略与值
摘要:Actor-Critic算法 在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。 下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判𝜋生成的轨迹的好坏度量,即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。 但是,该累积和受到了策略网络𝜋的影响很大。在相
李宏毅的强化学习视频用于梳理翻阅(1)策略
摘要:本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。 最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization) 蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。 优化目标 策略