Angry_Panda - 博客园

强化学习、分布式计算方向的phd毕业后去企业的要求

摘要：实验室慕师弟马上要phd毕业了，虽然我是遥遥无期，但是看到身边同学可以上岸还是提师弟高兴。由于师弟准备去企业工作，于是乎我也不免好奇起来phd毕业后去公司会有什么样的要求，于是网上找了找招聘信息，挑了几个不错的招聘岗位，这里mark下。 1. 强化学习方向的（自动驾驶）虽然要求硕士学历就可以，不过阅读全文

posted @ 2021-03-27 20:55 Angry_Panda 阅读(302) 评论(0) 推荐(0)

【转载】自然梯度法（Natural Gradient）

摘要：原文地址： https://blog.csdn.net/philthinker/article/details/80615122 可以证明：在概率分布函数具备良好性质时， Fisher信息矩阵和KL散度的二阶导数的相反数相等。证明过程非常直接，此处从略。自然梯度法的目标公式阅读全文

posted @ 2021-03-26 14:31 Angry_Panda 阅读(673) 评论(1) 推荐(0)

【转载】费舍尔信息矩阵及自然梯度法

摘要：原文地址： https://zhuanlan.zhihu.com/p/228099600 费舍尔信息矩阵（Fisher Information Matrix, FIM）假设我们有一个参数为向量的模型，它对分布建模。在频率派统计学中，我们学习的方法是最大化与参数的似然（likelihood）。阅读全文

posted @ 2021-03-26 13:32 Angry_Panda 阅读(1996) 评论(0) 推荐(0)

【转载】梯度的直观理解_谈谈优化算法之一（动量法、Nesterov法、自然梯度法）

posted @ 2021-03-26 09:36 Angry_Panda 阅读(383) 评论(0) 推荐(0)

申请硕士学位时对发表学术论文的要求是应该降低还是提高呢？？？

摘要：百度新闻推来一则新闻： https://baijiahao.baidu.com/s?id=1694563354959476972&wfr=spider&for=pc 新闻的内容就是清华大学发布会议修订，取消硕士生毕业时对发表学术论文的强制要求。这个消息个人感觉就是降低了硕士毕业时对发表学术论文的要求阅读全文

posted @ 2021-03-20 11:19 Angry_Panda 阅读(109) 评论(0) 推荐(0)

强化学习入门书籍《DeepReinforcementLearningHands-On-SecondEdition》

摘要：前段时间在网上买了本强化学习入门的书籍，即《Deep-Reinforcement-Learning-Hands-On》，虽然是影印版的，但是感觉还是可以看看的，说的也蛮易懂的，感觉比现在市面上的中文的其它同类书籍要好很多。在下载代码的时候发现已经出了第二版，于是在网上找到了第二版的所在，感觉还是不错阅读全文

posted @ 2021-03-17 21:55 Angry_Panda 阅读(1052) 评论(1) 推荐(0)

LeetCode 上1769号面试编程题，python编程

摘要：原题地址： https://leetcode-cn.com/problems/minimum-number-of-operations-to-move-all-balls-to-each-box/ 事件起源于实验室的慕师弟马上要博士毕业，意向是要去互联网公司，于是建议其去网上练练编程题，也正因此见到阅读全文

posted @ 2021-03-14 23:49 Angry_Panda 阅读(145) 评论(1) 推荐(0)

动手煮面的一次经历，加餐DIY

摘要：去年和今年一直是有疫情的，也是如此像我这种在学校呆着的不是在家窝着就是在学校窝着，尤其是到了假期的时候，如果晚回家几天那食堂的伙食就会变得十分的恐怖。面对这样的伙食也是十分的无奈，虽然也是十分理解当前情况下还能提供一口热饭吃已然不易，但是这种伙食吃上几顿总是无法再继续了，于是想起了同屋小伙（老段）阅读全文

posted @ 2021-03-12 08:13 Angry_Panda 阅读(121) 评论(1) 推荐(0)

同策略强化学习算法可以使用经验缓存池（experience buffer）吗？？？设计一个基于缓存池的改进reinforce算法，给出初步的尝试 ---------- （reinforce + experience buffer）

摘要：本文使用代码地址： https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer 前面有几篇博客分析了以reinforce算法为原型的多环境并行强化学习算法，这里是在之前的算法基础上加入了经验池回放机制。经验池回放机阅读全文

posted @ 2021-01-27 07:52 Angry_Panda 阅读(828) 评论(0) 推荐(0)

标准DQN在测试算法性能时为什么要将探索概率epsilon设置为0.05呢，而不是使用其他探索概率的epsilon-greedy策略或者直接使用greedy探索策略呢？

摘要：标准dqn的策略网络参数更新所采用的规则为Q-learning中的更新规则，总所周知的是Q-learning是异策略算法，异策略算法就是行为策略和评估策略（更新所得策略）是不同的。更新规则： q-learning 如果使用不使用函数近似来表示Q值，那么存在：也就是说，只要运行迭代的次数足够多，趋阅读全文

posted @ 2021-01-26 12:44 Angry_Panda 阅读(2515) 评论(0) 推荐(0)

Angry Panda（T-800）

公告

导航