2018 年 12月 21 日随笔档案 - 罗兵

2018年12月21日

【强化学习】用pandas 与 numpy 分别实现 q-learning, saras, saras(lambda)算法

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢：本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的，但是两者之间的操作有区别，故在实现上阅读全文

posted @ 2018-12-21 22:31 罗兵阅读(1548) 评论(0) 推荐(0) 编辑

【转】【强化学习】Deep Q Network(DQN)算法详解

摘要：原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083  DQN（Deep Q-Learning）是将深度学习deeplearning与强化学习reinforcementlea 阅读全文

posted @ 2018-12-21 12:41 罗兵阅读(19913) 评论(0) 推荐(1) 编辑

【转】强化学习（二）

摘要：原文地址：https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习（RL，基于MDP）的求解policy的方式一般分为三种： Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯阅读全文

posted @ 2018-12-21 11:53 罗兵阅读(839) 评论(0) 推荐(0) 编辑

【转】强化学习（一）Deep Q-Network

摘要：原文地址：https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言虽然将深度学习和增强学习结合的想法在几年前就有人尝试，但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce 阅读全文

posted @ 2018-12-21 11:40 罗兵阅读(3315) 评论(0) 推荐(1) 编辑

【转】AlphaGO Zero 原理

摘要：原文地址：https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述简单来说，AlphaGo Zero 的训练可以分为三个同时进行的阶段：自我对战再训练网络评估网络在自我对战阶段， AlphaGo Zero 创建一个训练集合阅读全文

posted @ 2018-12-21 11:29 罗兵阅读(4102) 评论(0) 推荐(1) 编辑

公告

w e l c o m e ， w e l c o m e ！
您是本博第

位访客

昵称：罗兵
园龄： 10年2个月
粉丝： 338
关注： 13

+加关注

2025年3月

日

一

二

三

四

五

六

随笔档案

django

Git

Git版本控制软件结合GitHub从入门到精通常用命令学习手册

python

scrapy py3

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

django

Git

python

SQL

阅读排行榜

评论排行榜

推荐排行榜

最新评论