上一页 1 ··· 223 224 225 226 227 228 229 230 231 ··· 280 下一页

2021年3月27日

摘要: 实验室慕师弟马上要phd毕业了,虽然我是遥遥无期,但是看到身边同学可以上岸还是提师弟高兴。由于师弟准备去企业工作,于是乎我也不免好奇起来phd毕业后去公司会有什么样的要求,于是网上找了找招聘信息,挑了几个不错的招聘岗位,这里mark下。 1. 强化学习方向的(自动驾驶) 虽然要求硕士学历就可以,不过 阅读全文
posted @ 2021-03-27 20:55 Angry_Panda 阅读(302) 评论(0) 推荐(0)

2021年3月26日

摘要: 原文地址: https://blog.csdn.net/philthinker/article/details/80615122 可以证明:在概率分布函数具备良好性质时, Fisher信息矩阵和KL散度的二阶导数的相反数相等。证明过程非常直接,此处从略。 自然梯度法的目标公式 阅读全文
posted @ 2021-03-26 14:31 Angry_Panda 阅读(673) 评论(1) 推荐(0)
摘要: 原文地址: https://zhuanlan.zhihu.com/p/228099600 费舍尔信息矩阵(Fisher Information Matrix, FIM) 假设我们有一个参数为向量 的模型,它对分布 建模。在频率派统计学中,我们学习的方法是最大化与参数的似然(likelihood)。 阅读全文
posted @ 2021-03-26 13:32 Angry_Panda 阅读(1996) 评论(0) 推荐(0)
摘要: 原文地址: https://blog.csdn.net/weixin_34613462/article/details/112333623 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/w 阅读全文
posted @ 2021-03-26 09:36 Angry_Panda 阅读(383) 评论(0) 推荐(0)

2021年3月20日

摘要: 百度新闻推来一则新闻: https://baijiahao.baidu.com/s?id=1694563354959476972&wfr=spider&for=pc 新闻的内容就是清华大学发布会议修订,取消硕士生毕业时对发表学术论文的强制要求。这个消息个人感觉就是降低了硕士毕业时对发表学术论文的要求 阅读全文
posted @ 2021-03-20 11:19 Angry_Panda 阅读(109) 评论(0) 推荐(0)

2021年3月17日

摘要: 前段时间在网上买了本强化学习入门的书籍,即《Deep-Reinforcement-Learning-Hands-On》,虽然是影印版的,但是感觉还是可以看看的,说的也蛮易懂的,感觉比现在市面上的中文的其它同类书籍要好很多。在下载代码的时候发现已经出了第二版,于是在网上找到了第二版的所在,感觉还是不错 阅读全文
posted @ 2021-03-17 21:55 Angry_Panda 阅读(1052) 评论(1) 推荐(0)

2021年3月14日

摘要: 原题地址: https://leetcode-cn.com/problems/minimum-number-of-operations-to-move-all-balls-to-each-box/ 事件起源于实验室的慕师弟马上要博士毕业,意向是要去互联网公司,于是建议其去网上练练编程题,也正因此见到 阅读全文
posted @ 2021-03-14 23:49 Angry_Panda 阅读(145) 评论(1) 推荐(0)

2021年3月12日

摘要: 去年和今年一直是有疫情的,也是如此像我这种在学校呆着的不是在家窝着就是在学校窝着,尤其是到了假期的时候,如果晚回家几天那食堂的伙食就会变得十分的恐怖。 面对这样的伙食也是十分的无奈,虽然也是十分理解当前情况下还能提供一口热饭吃已然不易,但是这种伙食吃上几顿总是无法再继续了,于是想起了同屋小伙(老段) 阅读全文
posted @ 2021-03-12 08:13 Angry_Panda 阅读(121) 评论(1) 推荐(0)

2021年1月27日

摘要: 本文使用代码地址: https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer 前面有几篇博客分析了以reinforce算法为原型的多环境并行强化学习算法,这里是在之前的算法基础上加入了经验池回放机制。经验池回放机 阅读全文
posted @ 2021-01-27 07:52 Angry_Panda 阅读(828) 评论(0) 推荐(0)

2021年1月26日

摘要: 标准dqn的策略网络参数更新所采用的规则为Q-learning中的更新规则,总所周知的是Q-learning是异策略算法,异策略算法就是行为策略和评估策略(更新所得策略)是不同的。 更新规则: q-learning 如果使用不使用函数近似来表示Q值,那么存在: 也就是说,只要运行迭代的次数足够多,趋 阅读全文
posted @ 2021-01-26 12:44 Angry_Panda 阅读(2515) 评论(0) 推荐(0)
上一页 1 ··· 223 224 225 226 227 228 229 230 231 ··· 280 下一页

导航