摘要:
原文地址: https://blog.csdn.net/woaipichuli/article/details/78645999 这篇博文简单的介绍PySC2的基本使用以及分析一份网友提供的代码(使用DQN来让计算机玩星际2)。 ##1-PySC2 ## Deepmind公布的这段python与Py 阅读全文
2019年4月9日
摘要:
原文地址: https://blog.csdn.net/qq_40244666/article/details/80957644 作者:BOY_IT_IT 来源:CSDN (本文是在Windows下搭建的环境) 一、anacandon的安装 1、下载anacandon软件 链接:https://ww 阅读全文
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9714655.html 在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Le 阅读全文
2019年4月8日
摘要:
原文地址: https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html 1 概述 “猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现 阅读全文
2019年4月7日
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9669263.html 在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Lea 阅读全文
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9614290.html 在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARS 阅读全文
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9529828.html 在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如 阅读全文
2019年4月6日
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9492980.html 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导 阅读全文
摘要:
原文地址: https://www.cnblogs.com/pinard/p/9463815.html 在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programmin 阅读全文
摘要:
原文地址: https://www.jianshu.com/p/15d8726fa8a8 作者:Demisstif来源:简书 事件:这几天github上一个项目引起了很多人关注,特别是国内程序员群体。有一名程序员不满996制度,在github上创建了一个开源项目,指出996工作制不符合法律,对程序员 阅读全文