12 2018 档案

摘要:keras构造神经网络,非常之方便!以后就它了。本文给出了三个例子,都是普通的神经网络 例一、离散输出,单标签、多分类 例二、图像识别,单标签、多分类。没有用到卷积神经网络(CNN) 例三、时序预测,单标签、多分类。(LSTM) 说明 keras对于神经网络给出的流程图,非常容易理解。 图片来源:h 阅读全文
posted @ 2018-12-29 12:42 罗兵 阅读(14690) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的,但是两者之间的操作有区别,故在实现上 阅读全文
posted @ 2018-12-21 22:31 罗兵 阅读(1548) 评论(0) 推荐(0) 编辑
摘要:原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 <!-- flowchart 箭头图标 勿删 --> DQN(Deep Q-Learning)是将深度学习deeplearning与强化学习reinforcementlea 阅读全文
posted @ 2018-12-21 12:41 罗兵 阅读(19913) 评论(0) 推荐(1) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习(RL,基于MDP)的求解policy的方式一般分为三种: Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯 阅读全文
posted @ 2018-12-21 11:53 罗兵 阅读(839) 评论(0) 推荐(0) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce 阅读全文
posted @ 2018-12-21 11:40 罗兵 阅读(3315) 评论(0) 推荐(1) 编辑
摘要:原文地址:https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述 简单来说,AlphaGo Zero 的训练可以分为三个同时进行的阶段: 自我对战 再训练网络 评估网络 在自我对战阶段, AlphaGo Zero 创建一个训练集合 阅读全文
posted @ 2018-12-21 11:29 罗兵 阅读(4102) 评论(0) 推荐(1) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10147265.html 将例一用saras lambda算法重新撸了一遍,没有参照任何其他人的代码。仅仅根据伪代码,就撸出来了。感觉已真正理解了saras lambda算法。记录如下 0. s 阅读全文
posted @ 2018-12-20 02:24 罗兵 阅读(865) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10146554.html 说明:将之前 q-learning 实现的例一,用 saras 重新写了一遍。具体问题这里就不多说了。 0. q-learning 与 saras 伪代码的对比 图片来 阅读全文
posted @ 2018-12-19 22:21 罗兵 阅读(1605) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10145797.html 0.说明 这里提供了二维迷宫问题的一个比较通用的模板,拿到后需要修改的地方非常少。 对于任意的二维迷宫的 class Agent,只需修改三个地方:MAZE_R, MA 阅读全文
posted @ 2018-12-19 20:31 罗兵 阅读(4571) 评论(4) 推荐(2) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10143579.html 感谢pengdali,本文的 class Maze 参考了他的博客,地址:https://blog.csdn.net/pengdali/article/details/ 阅读全文
posted @ 2018-12-19 15:29 罗兵 阅读(4491) 评论(0) 推荐(0) 编辑
摘要:将例二改写成面向对象模式,并加了环境! 不过更新环境的过程中,用到了清屏命令,play()的时候,会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码 相对于例一,修改的地方: Agent 五处:states, actions, rewards, get_valid_actio 阅读全文
posted @ 2018-12-18 21:35 罗兵 阅读(1367) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10139738.html 例一的代码是函数式编写的,这里用面向对象的方式重新撸了一遍。好处是,更便于理解环境(Env)、个体(Agent)之间的关系。 有缘看到的朋友,自己慢慢体会吧。 0.效果 阅读全文
posted @ 2018-12-18 20:17 罗兵 阅读(2139) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134855.html 问题情境 一个2*2的迷宫,一个入口,一个出口,还有一个陷阱。如图 (图片来源:https://jizhi.im/blog/post/intro_q_learning) 阅读全文
posted @ 2018-12-18 00:43 罗兵 阅读(6613) 评论(0) 推荐(0) 编辑
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o T# T 就是宝藏的位置, o 是探索者的位置 这一次我们会用 q-learning 的方法实现一个小例子,例子的环境是一个一维世界,在世界的右边有宝藏 阅读全文
posted @ 2018-12-17 21:23 罗兵 阅读(16135) 评论(3) 推荐(0) 编辑
摘要:刚接触棋类游戏程序编写的朋友,往往比较迷惑,不知从何下手。 本文总结了棋类游戏的主程序流程、计算机走子策略、打分方式(以井字棋、黑白棋、五子棋为例),未使用minimax算法,比较简单,适合刚接触的朋友。特记录如下: 作者:hhh5460 本文地址:https://www.cnblogs.com/h 阅读全文
posted @ 2018-12-13 15:22 罗兵 阅读(2357) 评论(0) 推荐(0) 编辑
摘要:今天,发现了几个好用的在线表格,特做记录如下: 本文地址:https://www.cnblogs.com/hhh5460/p/10052392.html 1、Treation 网址:https://treation.com/ (说明:此表前端使用vue.js) 效果图: 2、Ethercalc 网址 阅读全文
posted @ 2018-12-02 10:35 罗兵 阅读(1002) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示