2021 年 1月随笔档案 - Angry_Panda

同策略强化学习算法可以使用经验缓存池（experience buffer）吗？？？设计一个基于缓存池的改进reinforce算法，给出初步的尝试 ---------- （reinforce + experience buffer）

摘要：本文使用代码地址： https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer 前面有几篇博客分析了以reinforce算法为原型的多环境并行强化学习算法，这里是在之前的算法基础上加入了经验池回放机制。经验池回放机阅读全文

posted @ 2021-01-27 07:52 Angry_Panda 阅读(731) 评论(0) 推荐(0)

标准DQN在测试算法性能时为什么要将探索概率epsilon设置为0.05呢，而不是使用其他探索概率的epsilon-greedy策略或者直接使用greedy探索策略呢？

摘要：标准dqn的策略网络参数更新所采用的规则为Q-learning中的更新规则，总所周知的是Q-learning是异策略算法，异策略算法就是行为策略和评估策略（更新所得策略）是不同的。更新规则： q-learning 如果使用不使用函数近似来表示Q值，那么存在：也就是说，只要运行迭代的次数足够多，趋阅读全文

posted @ 2021-01-26 12:44 Angry_Panda 阅读(2404) 评论(0) 推荐(0)

强化学习中性能的评价指标到底应该如何选择：1.平均得分，2.平均Q值

摘要：《Human-level control through deep reinforcement learning》是深度强化学习的开创性论文，对于强化学习算法的性能评价在文章中给出了两种方式，分别是： 1. 平均得分。测试性能时agent进行一定的步数执行，记录agent所获得的所有奖励值并对其求阅读全文

posted @ 2021-01-24 19:40 Angry_Panda 阅读(8106) 评论(0) 推荐(0)

自动判断网络连接状态，如断网则自动进行联网（特定环境：某高校校园网）

摘要：编程环境：python3 使用环境：特定为东北某海滨高校的校园网功能：定期判断是否联网，如果网络端口则自动尽量网络连接操作（校园网登录，login认证）说明：用户名及密码需要依照个人情况改写方可使用（必须是某高校的校园网下才可使用） # encoding:UTF-8 from urllib.p 阅读全文

posted @ 2021-01-23 08:25 Angry_Panda 阅读(542) 评论(1) 推荐(0)

并行化强化学习 —— 最终版本 —— 并行reinforce算法的尝试

摘要：本文代码地址： https://gitee.com/devilmaycry812839668/final_-version_-parallelism_-reinforce_-cart-pole 结合了前面几个版本的并行化强化学习的设计，给出了最终版本。gym下简单的CarlPole环境作为仿真环境，阅读全文

posted @ 2021-01-22 20:57 Angry_Panda 阅读(458) 评论(0) 推荐(0)

并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（下篇：强化学习在大规模仿真环境下多步交互并行化设计的可行性）

摘要：本文代码地址： https://gitee.com/devilmaycry812839668/parallelism_-multi_-step_-reinforce_-cart-pole 和前文：并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（中篇：强化学习在大规模仿真环境下阅读全文

posted @ 2021-01-16 10:49 Angry_Panda 阅读(220) 评论(0) 推荐(0)

并行化（或者分布式）强化学习的本质是什么？？？

摘要：序言：读书的研究方向为强化学习，做学术自然开始着手做的事情就是阅读论文，不过读着读者相关的论文就发现了一些问题，强化学习方向的论文大部分都是上来给出一种在以往算法上的改进，给出具体改进算法的伪代码，然后说下简单的理解判断用来说明一下为什么这个改进的算法有效，但是这往往导致这些所谓的解释难以真正的对其阅读全文

posted @ 2021-01-06 08:38 Angry_Panda 阅读(1082) 评论(2) 推荐(0)

并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（中篇：强化学习在大规模仿真环境下单步交互并行化设计的可行性）

摘要：本篇博客是前篇博客并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（上篇：强化学习在多仿真环境下单步交互并行化设计的可行性）的继续，文中代码地址为：https://gitee.com/devilmaycry812839668/Parallelism_Reinforce_CartP 阅读全文

posted @ 2021-01-04 16:58 Angry_Panda 阅读(250) 评论(0) 推荐(0)

并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（上篇：强化学习在多仿真环境下单步交互并行化设计的可行性）

摘要：强化学习由于难收敛所以训练周期较长，同时由于强化学习在训练过程中起训练数据一般都为实时生成的，因此在训练的同时算法还需要生成待训练的数据，强化学习算法的基本架构可以视作下图：（取自：深度学习中使用TensorFlow或Pytorch框架时到底是应该使用CPU还是GPU来进行运算？？？）由强化学习的阅读全文

posted @ 2021-01-02 09:24 Angry_Panda 阅读(1030) 评论(0) 推荐(0)

台式机电脑散热之狂想曲——主机机箱散热的另类方法（纯空想中ing）

摘要：本博文是一篇狂想曲，之所以叫狂想曲是因为本文只是博主在无聊时突发奇想，而且仅停留于想的阶段，所以本文内容不用太过认真。事情是这样的，博主有一台式机，有事没事的就喜欢宅在宿舍里面，有时候还能偶然用这台式机写写代码跑跑程序啥的。由于该电脑需要跑跑代码，而一运行负荷较大的算法就会要CPU甚至GPU蛮负荷阅读全文

posted @ 2021-01-01 11:01 Angry_Panda 阅读(1533) 评论(1) 推荐(0)

Angry Panda

01 2021 档案