摘要:本文使用代码地址: https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer 前面有几篇博客分析了以reinforce算法为原型的多环境并行强化学习算法,这里是在之前的算法基础上加入了经验池回放机制。经验池回放机
阅读全文
摘要:标准dqn的策略网络参数更新所采用的规则为Q-learning中的更新规则,总所周知的是Q-learning是异策略算法,异策略算法就是行为策略和评估策略(更新所得策略)是不同的。 更新规则: q-learning 如果使用不使用函数近似来表示Q值,那么存在: 也就是说,只要运行迭代的次数足够多,趋
阅读全文
摘要:《Human-level control through deep reinforcement learning》 是深度强化学习的开创性论文,对于强化学习算法的性能评价在文章中给出了两种方式,分别是: 1. 平均得分。测试性能时agent进行一定的步数执行,记录agent所获得的所有奖励值并对其求
阅读全文
摘要:编程环境:python3 使用环境:特定为东北某海滨高校的校园网 功能: 定期判断是否联网,如果网络端口则自动尽量网络连接操作(校园网登录,login认证) 说明:用户名及密码需要依照个人情况改写方可使用(必须是某高校的校园网下才可使用) # encoding:UTF-8 from urllib.p
阅读全文
摘要:本文代码地址: https://gitee.com/devilmaycry812839668/final_-version_-parallelism_-reinforce_-cart-pole 结合了前面几个版本的并行化强化学习的设计,给出了最终版本。gym下简单的CarlPole环境作为仿真环境,
阅读全文
摘要:本文代码地址: https://gitee.com/devilmaycry812839668/parallelism_-multi_-step_-reinforce_-cart-pole 和前文: 并行化强化学习 —— 初探 —— 并行reinforce算法的尝试 (中篇:强化学习在大规模仿真环境下
阅读全文
摘要:序言:读书的研究方向为强化学习,做学术自然开始着手做的事情就是阅读论文,不过读着读者相关的论文就发现了一些问题,强化学习方向的论文大部分都是上来给出一种在以往算法上的改进,给出具体改进算法的伪代码,然后说下简单的理解判断用来说明一下为什么这个改进的算法有效,但是这往往导致这些所谓的解释难以真正的对其
阅读全文
摘要:本篇博客是前篇博客并行化强化学习 —— 初探 —— 并行reinforce算法的尝试 (上篇:强化学习在多仿真环境下单步交互并行化设计的可行性)的继续,文中代码地址为:https://gitee.com/devilmaycry812839668/Parallelism_Reinforce_CartP
阅读全文
摘要:强化学习由于难收敛所以训练周期较长,同时由于强化学习在训练过程中起训练数据一般都为实时生成的,因此在训练的同时算法还需要生成待训练的数据,强化学习算法的基本架构可以视作下图:(取自:深度学习中使用TensorFlow或Pytorch框架时到底是应该使用CPU还是GPU来进行运算???) 由强化学习的
阅读全文
摘要:本博文是一篇狂想曲,之所以叫狂想曲是因为本文只是博主在无聊时突发奇想,而且仅停留于想的阶段,所以本文内容不用太过认真。 事情是这样的,博主有一台式机,有事没事的就喜欢宅在宿舍里面,有时候还能偶然用这台式机写写代码跑跑程序啥的。由于该电脑需要跑跑代码,而一运行负荷较大的算法就会要CPU甚至GPU蛮负荷
阅读全文