2018 年 12月随笔档案 - 罗兵

keras神经网络三个例子

摘要：keras构造神经网络，非常之方便！以后就它了。本文给出了三个例子，都是普通的神经网络例一、离散输出，单标签、多分类例二、图像识别，单标签、多分类。没有用到卷积神经网络（CNN）例三、时序预测，单标签、多分类。（LSTM）说明 keras对于神经网络给出的流程图，非常容易理解。图片来源：h 阅读全文

posted @ 2018-12-29 12:42 罗兵阅读(14690) 评论(0) 推荐(0) 编辑

【强化学习】用pandas 与 numpy 分别实现 q-learning, saras, saras(lambda)算法

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢：本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的，但是两者之间的操作有区别，故在实现上阅读全文

posted @ 2018-12-21 22:31 罗兵阅读(1548) 评论(0) 推荐(0) 编辑

【转】【强化学习】Deep Q Network(DQN)算法详解

摘要：原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083  DQN（Deep Q-Learning）是将深度学习deeplearning与强化学习reinforcementlea 阅读全文

posted @ 2018-12-21 12:41 罗兵阅读(19913) 评论(0) 推荐(1) 编辑

【转】强化学习（二）

摘要：原文地址：https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习（RL，基于MDP）的求解policy的方式一般分为三种： Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯阅读全文

posted @ 2018-12-21 11:53 罗兵阅读(839) 评论(0) 推荐(0) 编辑

【转】强化学习（一）Deep Q-Network

摘要：原文地址：https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言虽然将深度学习和增强学习结合的想法在几年前就有人尝试，但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce 阅读全文

posted @ 2018-12-21 11:40 罗兵阅读(3315) 评论(0) 推荐(1) 编辑

【转】AlphaGO Zero 原理

摘要：原文地址：https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述简单来说，AlphaGo Zero 的训练可以分为三个同时进行的阶段：自我对战再训练网络评估网络在自我对战阶段， AlphaGo Zero 创建一个训练集合阅读全文

posted @ 2018-12-21 11:29 罗兵阅读(4102) 评论(0) 推荐(1) 编辑

【强化学习】python 实现 saras lambda 例一

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10147265.html 将例一用saras lambda算法重新撸了一遍，没有参照任何其他人的代码。仅仅根据伪代码，就撸出来了。感觉已真正理解了saras lambda算法。记录如下 0. s 阅读全文

posted @ 2018-12-20 02:24 罗兵阅读(865) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 saras 例一

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10146554.html 说明：将之前 q-learning 实现的例一，用 saras 重新写了一遍。具体问题这里就不多说了。 0. q-learning 与 saras 伪代码的对比图片来阅读全文

posted @ 2018-12-19 22:21 罗兵阅读(1605) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 q-learning 迷宫通用模板

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10145797.html 0.说明这里提供了二维迷宫问题的一个比较通用的模板，拿到后需要修改的地方非常少。对于任意的二维迷宫的 class Agent，只需修改三个地方：MAZE_R， MA 阅读全文

posted @ 2018-12-19 20:31 罗兵阅读(4571) 评论(4) 推荐(2) 编辑

【强化学习】python 实现 q-learning 例五（GUI）

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10143579.html 感谢pengdali，本文的 class Maze 参考了他的博客，地址：https://blog.csdn.net/pengdali/article/details/ 阅读全文

posted @ 2018-12-19 15:29 罗兵阅读(4491) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 q-learning 例四（例二改写）

摘要：将例二改写成面向对象模式，并加了环境！不过更新环境的过程中，用到了清屏命令，play()的时候，会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码相对于例一，修改的地方： Agent 五处：states, actions, rewards, get_valid_actio 阅读全文

posted @ 2018-12-18 21:35 罗兵阅读(1367) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 q-learning 例三（例一改写）

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10139738.html 例一的代码是函数式编写的，这里用面向对象的方式重新撸了一遍。好处是，更便于理解环境(Env)、个体(Agent)之间的关系。有缘看到的朋友，自己慢慢体会吧。 0.效果阅读全文

posted @ 2018-12-18 20:17 罗兵阅读(2139) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 q-learning 例二

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10134855.html 问题情境一个2*2的迷宫，一个入口，一个出口，还有一个陷阱。如图（图片来源：https://jizhi.im/blog/post/intro_q_learning）阅读全文

posted @ 2018-12-18 00:43 罗兵阅读(6613) 评论(0) 推荐(0) 编辑

【强化学习】python 实现 q-learning 例一

摘要：本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o T# T 就是宝藏的位置, o 是探索者的位置这一次我们会用 q-learning 的方法实现一个小例子，例子的环境是一个一维世界，在世界的右边有宝藏阅读全文

posted @ 2018-12-17 21:23 罗兵阅读(16135) 评论(3) 推荐(0) 编辑

python棋类游戏编写入门

摘要：刚接触棋类游戏程序编写的朋友，往往比较迷惑，不知从何下手。本文总结了棋类游戏的主程序流程、计算机走子策略、打分方式(以井字棋、黑白棋、五子棋为例)，未使用minimax算法，比较简单，适合刚接触的朋友。特记录如下：作者：hhh5460 本文地址：https://www.cnblogs.com/h 阅读全文

posted @ 2018-12-13 15:22 罗兵阅读(2357) 评论(0) 推荐(0) 编辑

推荐几个表格工具

摘要：今天，发现了几个好用的在线表格，特做记录如下：本文地址：https://www.cnblogs.com/hhh5460/p/10052392.html 1、Treation 网址：https://treation.com/ （说明：此表前端使用vue.js）效果图： 2、Ethercalc 网址阅读全文

posted @ 2018-12-02 10:35 罗兵阅读(1002) 评论(0) 推荐(0) 编辑

12 2018 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

django

Git

python

SQL

阅读排行榜

评论排行榜

推荐排行榜

最新评论