12 2018 档案
摘要:keras构造神经网络,非常之方便!以后就它了。本文给出了三个例子,都是普通的神经网络 例一、离散输出,单标签、多分类 例二、图像识别,单标签、多分类。没有用到卷积神经网络(CNN) 例三、时序预测,单标签、多分类。(LSTM) 说明 keras对于神经网络给出的流程图,非常容易理解。 图片来源:h
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的,但是两者之间的操作有区别,故在实现上
阅读全文
摘要:原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 <!-- flowchart 箭头图标 勿删 --> DQN(Deep Q-Learning)是将深度学习deeplearning与强化学习reinforcementlea
阅读全文
摘要:原文地址:https://www.hhyz.me/2018/08/13/2018-08-13-RL2/ 强化学习(RL,基于MDP)的求解policy的方式一般分为三种: Value <—critic Policy <—actor Value + Policy <— Actor-critic 策略梯
阅读全文
摘要:原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMind在NIPS 2013上发表的 Playing Atari with Deep Reinforce
阅读全文
摘要:原文地址:https://www.hhyz.me/2018/08/08/2018-08-08-AlphaGO-Zero/> 1. 概述 简单来说,AlphaGo Zero 的训练可以分为三个同时进行的阶段: 自我对战 再训练网络 评估网络 在自我对战阶段, AlphaGo Zero 创建一个训练集合
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10147265.html 将例一用saras lambda算法重新撸了一遍,没有参照任何其他人的代码。仅仅根据伪代码,就撸出来了。感觉已真正理解了saras lambda算法。记录如下 0. s
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10146554.html 说明:将之前 q-learning 实现的例一,用 saras 重新写了一遍。具体问题这里就不多说了。 0. q-learning 与 saras 伪代码的对比 图片来
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10145797.html 0.说明 这里提供了二维迷宫问题的一个比较通用的模板,拿到后需要修改的地方非常少。 对于任意的二维迷宫的 class Agent,只需修改三个地方:MAZE_R, MA
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10143579.html 感谢pengdali,本文的 class Maze 参考了他的博客,地址:https://blog.csdn.net/pengdali/article/details/
阅读全文
摘要:将例二改写成面向对象模式,并加了环境! 不过更新环境的过程中,用到了清屏命令,play()的时候,会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码 相对于例一,修改的地方: Agent 五处:states, actions, rewards, get_valid_actio
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10139738.html 例一的代码是函数式编写的,这里用面向对象的方式重新撸了一遍。好处是,更便于理解环境(Env)、个体(Agent)之间的关系。 有缘看到的朋友,自己慢慢体会吧。 0.效果
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134855.html 问题情境 一个2*2的迷宫,一个入口,一个出口,还有一个陷阱。如图 (图片来源:https://jizhi.im/blog/post/intro_q_learning)
阅读全文
摘要:本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o T# T 就是宝藏的位置, o 是探索者的位置 这一次我们会用 q-learning 的方法实现一个小例子,例子的环境是一个一维世界,在世界的右边有宝藏
阅读全文
摘要:刚接触棋类游戏程序编写的朋友,往往比较迷惑,不知从何下手。 本文总结了棋类游戏的主程序流程、计算机走子策略、打分方式(以井字棋、黑白棋、五子棋为例),未使用minimax算法,比较简单,适合刚接触的朋友。特记录如下: 作者:hhh5460 本文地址:https://www.cnblogs.com/h
阅读全文
摘要:今天,发现了几个好用的在线表格,特做记录如下: 本文地址:https://www.cnblogs.com/hhh5460/p/10052392.html 1、Treation 网址:https://treation.com/ (说明:此表前端使用vue.js) 效果图: 2、Ethercalc 网址
阅读全文