Angry_Panda - 博客园

【转载】 Deepmind星际争霸2平台使用第一轮-完成采矿

摘要：原文地址： https://blog.csdn.net/woaipichuli/article/details/78645999 这篇博文简单的介绍PySC2的基本使用以及分析一份网友提供的代码（使用DQN来让计算机玩星际2）。 ##1-PySC2 ## Deepmind公布的这段python与Py 阅读全文

posted @ 2019-04-09 11:48 Angry_Panda 阅读(558) 评论(0) 推荐(0) 编辑

【转载】星际争霸2的AI环境搭建

摘要：原文地址： https://blog.csdn.net/qq_40244666/article/details/80957644 作者：BOY_IT_IT 来源：CSDN (本文是在Windows下搭建的环境) 一、anacandon的安装 1、下载anacandon软件链接：https://ww 阅读全文

posted @ 2019-04-09 10:55 Angry_Panda 阅读(1039) 评论(0) 推荐(0) 编辑

【转载】强化学习（八）价值函数的近似表示与Deep Q-Learning

摘要：原文地址： https://www.cnblogs.com/pinard/p/9714655.html 在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Le 阅读全文

posted @ 2019-04-09 10:14 Angry_Panda 阅读(433) 评论(0) 推荐(0) 编辑

【转载】强化学习在美团“猜你喜欢”的实践

摘要：原文地址： https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html 1 概述 “猜你喜欢”是美团流量最大的推荐展位，位于首页最下方，产品形态为信息流，承担了帮助用户完成意图转化、发现阅读全文

posted @ 2019-04-08 09:10 Angry_Panda 阅读(443) 评论(0) 推荐(0) 编辑

【转载】强化学习（七）时序差分离线控制算法Q-Learning

摘要：原文地址： https://www.cnblogs.com/pinard/p/9669263.html 在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Lea 阅读全文

posted @ 2019-04-07 22:24 Angry_Panda 阅读(353) 评论(0) 推荐(0) 编辑

【转载】强化学习（六）时序差分在线控制算法SARSA

摘要：原文地址： https://www.cnblogs.com/pinard/p/9614290.html 在强化学习（五）用时序差分法（TD）求解中，我们讨论了用时序差分来求解强化学习预测问题的方法，但是对控制算法的求解过程没有深入，本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARS 阅读全文

posted @ 2019-04-07 18:26 Angry_Panda 阅读(429) 评论(0) 推荐(0) 编辑

【转载】强化学习（五）用时序差分法（TD）求解

摘要：原文地址： https://www.cnblogs.com/pinard/p/9529828.html 在强化学习（四）用蒙特卡罗法（MC）求解中，我们讲到了使用蒙特卡罗法来求解强化学习问题的方法，虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如阅读全文

posted @ 2019-04-07 10:17 Angry_Panda 阅读(403) 评论(0) 推荐(0) 编辑

【转载】强化学习（四）用蒙特卡罗法（MC）求解

摘要：原文地址： https://www.cnblogs.com/pinard/p/9492980.html 在强化学习（三）用动态规划（DP）求解中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导阅读全文

posted @ 2019-04-06 23:43 Angry_Panda 阅读(318) 评论(0) 推荐(0) 编辑

【转载】强化学习（三）用动态规划（DP）求解

摘要：原文地址： https://www.cnblogs.com/pinard/p/9463815.html 在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programmin 阅读全文

posted @ 2019-04-06 16:39 Angry_Panda 阅读(355) 评论(0) 推荐(0) 编辑

【转载】看996ICU

摘要：原文地址： https://www.jianshu.com/p/15d8726fa8a8 作者：Demisstif来源：简书事件：这几天github上一个项目引起了很多人关注，特别是国内程序员群体。有一名程序员不满996制度，在github上创建了一个开源项目，指出996工作制不符合法律，对程序员阅读全文

posted @ 2019-04-06 14:52 Angry_Panda 阅读(376) 评论(1) 推荐(0) 编辑

Angry Panda

公告

导航