Angry_Panda - 博客园

temporal credit assignment in reinforcement learning 【强化学习经典论文】

摘要： Sutton 出版论文的主页： http://incompleteideas.net/publications.html Phd 论文： temporal credit assignment in reinforcement learning http://incompleteideas.net/p 阅读全文

posted @ 2019-04-14 14:30 Angry_Panda 阅读(1079) 评论(0) 推荐(0) 编辑

【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识

摘要：原文地址： https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位（QbitAI）摘要：本文来自AI新媒体量子位（QbitAI）地处加拿大埃德蒙顿的阿尔伯塔大学（UAlberta）可谓是强化学习重镇，这项技术的缔造者之一萨顿（Rich Sutton 阅读全文

posted @ 2019-04-14 13:08 Angry_Panda 阅读(410) 评论(0) 推荐(0) 编辑

【PPT】 Least squares temporal difference learning

摘要：最小二次方时序差分学习原文地址： https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=9&cad=rja&uact=8&ved=2ahUKEwjD6qn5x8zhAhVSuZ4KHfJTCyUQFjAIegQIBBAC&url 阅读全文

posted @ 2019-04-13 17:01 Angry_Panda 阅读(476) 评论(0) 推荐(0) 编辑

【转载】 TensorflowOnSpark：1)Standalone集群初体验

摘要：原文地址： https://blog.csdn.net/jiangpeng59/article/details/72867368 作者：PJ-Javis 来源：CSDN 1.实验环境 Centos7+Python2.7+Java8+Spark1.6+Hadoop2.7+Tensorflow0.12. 阅读全文

posted @ 2019-04-12 21:23 Angry_Panda 阅读(828) 评论(0) 推荐(0) 编辑

【转载】 pytorch笔记：06)requires_grad和volatile

摘要：原文地址： https://blog.csdn.net/jiangpeng59/article/details/80667335 作者：PJ-Javis 来源：CSDN requires_grad Variable变量的requires_grad的属性默认为False,若一个节点requires_g 阅读全文

posted @ 2019-04-12 20:53 Angry_Panda 阅读(1163) 评论(0) 推荐(0) 编辑

【转载】 Pytorch 细节记录

摘要：原文地址： https://www.cnblogs.com/king-lps/p/8570021.html 1. PyTorch进行训练和测试时指定实例化的model模式为：train/eval eg: eval即evaluation模式，train即训练模式。仅仅当模型中有Dropout和Batc 阅读全文

posted @ 2019-04-11 21:03 Angry_Panda 阅读(1252) 评论(0) 推荐(0) 编辑

【转载】避免博士生沦为「高危人群」，从正视与导师的关系做起

摘要：原文地址： https://www.leiphone.com/news/201904/xpEfrUZkgvgYh8Pu.html 雷锋网导语：几个参考建议本文作者：黄善清 2019-04-10 14:18 雷锋网 AI 科技评论：国内博士一念就是 4 到 6 年，在这段时间里，接触最频繁的博士导阅读全文

posted @ 2019-04-11 13:40 Angry_Panda 阅读(1346) 评论(1) 推荐(0) 编辑

【转载】强化学习(十一) Prioritized Replay DQN

摘要：原文地址： https://www.cnblogs.com/pinard/p/9797695.html 在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今阅读全文

posted @ 2019-04-10 09:56 Angry_Panda 阅读(859) 评论(0) 推荐(0) 编辑

【转载】强化学习（十）Double DQN (DDQN)

摘要：原文地址： https://www.cnblogs.com/pinard/p/9778063.html 在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有阅读全文

posted @ 2019-04-09 22:30 Angry_Panda 阅读(1536) 评论(0) 推荐(0) 编辑

【转载】强化学习（九）Deep Q-Learning进阶之Nature DQN

摘要：原文地址： https://www.cnblogs.com/pinard/p/9756075.html 在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learni 阅读全文

posted @ 2019-04-09 18:27 Angry_Panda 阅读(601) 评论(0) 推荐(0) 编辑

Angry Panda

公告

导航