摘要: 1.数据规整化: 将数据规整到[0,1]间: arr = ( arr - arr.min() ) / ( arr.max() - arr.min() ) 将数据规整到[-1,1]间: arr = ( ( arr - arr.min() ) / ( arr.max() - arr.min() ) ) 阅读全文
posted @ 2020-02-28 11:15 dynmi 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 我的ubuntu18同时有python3.6和python2.7两个python版本,所以用起来有python &pip 和python3&pip3两个存在导致很不舒服,因为python2.7的存在只是为了给某应用提供background支持,我就把python2.7命令覆盖了. sudo upda 阅读全文
posted @ 2020-02-27 15:18 dynmi 阅读(222) 评论(0) 推荐(0) 编辑
摘要: pip从pypi下载第三方库存在网络问题,下载慢,超时,可以通过换源解决: 阿里镜像源是所有镜像源中最高效的,我们采用阿里镜像源. 1.从pip配置中修改下载源:(一劳永逸的方法) 将文件 ~/.pip/pip.conf 文件添加或修改: [global] index-url = https://m 阅读全文
posted @ 2020-02-27 11:05 dynmi 阅读(688) 评论(0) 推荐(0) 编辑
摘要: ——import matplotlib.pyplot as plt 官方手册 https://matplotlib.org/tutorials/introductory/pyplot.html ——import seaborn as sns 官方手册http://seaborn.pydata.org 阅读全文
posted @ 2020-02-20 18:33 dynmi 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC 阅读全文
posted @ 2020-02-20 10:42 dynmi 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文
posted @ 2020-02-14 20:05 dynmi 阅读(537) 评论(0) 推荐(1) 编辑
摘要: 一、Intro Prediction只是评估给定策略的表现,直白的说它是找 “在环境ENV下,AGENT按照给定的策略pai,AGENT的价值函数”。 这篇blog只介绍三种计算方法,没有涉及到 “求取ENV下的最优AGENT”! 对于事先已经给出了ENV,也就是说我们有完整的MDP,知道所有的st 阅读全文
posted @ 2020-02-14 13:00 dynmi 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 一.MDP / NFA :马尔可夫模型和不确定型有限状态机的不同 状态自动机:https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移,抛掉这一点两者就八竿子打不着了。 二.MP -> MRP -> MDP 阅读全文
posted @ 2020-02-12 09:56 dynmi 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 1.圆排列和项链排列 我记得上高中的时候,做题的时候就遇到过圆形排列组合的题,我们高中不学圆排列和项链排列,当时也不敢问这是怎么回事,老师讲课的时候就照本宣章,我们就按照套路解题。 圆排列问题最早出现在中国《易经》的四象八卦组合。“四象”就是每次取两个爻的排列,“八卦”是每次取三个爻的排列。“求八卦 阅读全文
posted @ 2020-02-11 11:26 dynmi 阅读(1331) 评论(0) 推荐(0) 编辑
摘要: 1.排列(permutation): 从n个不同的元素中,取出r个不重复的元素,按次序排列,称为从n个中取r个的无重排列。 排列的个数用P(n,r)表示或Prn n>=r //高中的时候教材教我们Arn ,跟这里的一样。 P(n,r) = n!/r! 排列的基本问题是“n个不同球放r个不同盒”问题。 阅读全文
posted @ 2020-02-10 13:24 dynmi 阅读(1278) 评论(0) 推荐(0) 编辑
摘要: 分类——>加法法则 分步——>乘法法则 加法法则: 设事件A有m种产生方式,事件B有n种产生方式 ——> 那么事件A或B总共有m+n种产生方式。 若|A|=m,|B|=n,A∩B=∅ ——> 则|AUB|=m+n 乘法法则: 设事件A有m种产生方式,事件B有n种产生方式 ——> 那么事件A与B总共有 阅读全文
posted @ 2020-02-10 12:43 dynmi 阅读(862) 评论(0) 推荐(0) 编辑
摘要: 现在是2020年2月9号。开始跟清华马昱春老师的“组合数学”课程。https://next.xuetangx.com/course/THU08091000450/1511794 数学的发展史,从16世纪的初等数学,到以高等数学和线性代数为代表的分析数学,直至数论集合论等出现后的现代数学,分别对应了我 阅读全文
posted @ 2020-02-09 19:37 dynmi 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 我们小时候都玩过数独,数独就是以幻方为基础的游戏。 行/列的整数和为该幻方的幻和。 我们用s表示幻和。 对于一个n阶的幻方,幻和 s = n*(n*n+1) /2 容易证明,二级幻方不存在。 三十多年前,有人已证明:n>=3阶的幻方都是存在的。 循环轮回法构造三阶幻方的模拟:(c语言) #inclu 阅读全文
posted @ 2020-02-09 19:34 dynmi 阅读(927) 评论(0) 推荐(0) 编辑
摘要: ——Xshell ——VS code ——IDM ——7zip ——Git ——google chrome ——MS Office四件套 ——typra 阅读全文
posted @ 2020-02-08 16:40 dynmi 阅读(210) 评论(0) 推荐(0) 编辑
摘要: (本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程。https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2M 阅读全文
posted @ 2020-02-07 23:02 dynmi 阅读(239) 评论(0) 推荐(0) 编辑