摘要: Introduction这一章,解决的是用prediction的方法,来评估策略\(\pi\)的问题。对于Env来说,不是参数已知的MDP比如元组中a、s、P的关系不确定 or 未知Prediction -> ControlEvaluation -> Optimization蒙特卡洛法 Monte-Carlo learning定义:在不清楚MDP状态转移及即时奖励的情况下,直接从经历完整的Epis... 阅读全文
posted @ 2020-08-27 15:07 Tolshao 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 马尔科夫过程(Markov Process,MP)我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。一个马尔科夫过程可以由一个元组组成\(\langle\mathcal{S}, \mathcal{P}\rangle\)\(\mathcal{S}\)为(有限)的状态(state)集;\(\ma... 阅读全文
posted @ 2020-08-27 15:07 Tolshao 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 规划,适用于MDP模型参数已知学习,适用于Env未知或部分未知概述动态规划分为两步,Prediction、Control(Prediction)Value:是对策略\(\pi\)的评价\[, \pi \rightarrow V_\pi\](Control)Policy \(\pi\):是对Value的选择\[, V \rightarrow \pi \]方法:prediction:迭代法对所有状态s... 阅读全文
posted @ 2020-08-27 15:07 Tolshao 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 概述强化学习是一门多学科交叉的技术与传统控制的关系:相似性:RLtraditional controlagentcontrollerenvplant + enviromentrewardfeedback(error signals)valueoptimize function不同点:传统的控制:将任务分解成多个任务的串并联,设计(子)控制器机器学习:将控制器压缩成黑盒Black box强化学习不同... 阅读全文
posted @ 2020-08-27 15:06 Tolshao 阅读(203) 评论(0) 推荐(1) 编辑
摘要: Keras是一个高层神经网络API,Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合无缝CPU和GPU切换有串联式和函数式两种建模方式,串联式建模方式串联式... 阅读全文
posted @ 2020-08-27 15:04 Tolshao 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 为什么想写个博客耍?我们在生活和工作中会遇到的各种问题,现在基本都能从互联网上找到答案,因为个体相较于群体,所能接触到的面,太窄,也太小了。以前常去“百度知道”去搜答案,上网的门槛逐步降低之后,“知道”也不知道了,碎片化的问答里总是充斥着各种水军、广告,令人窒息。现在,你询问搜索引擎的问题,大多会在“知乎”、“博客”找到答案,与“知道”不同的是,详实且完整,足可以指引你前进。然后就突发奇想,自己也... 阅读全文
posted @ 2020-08-27 15:04 Tolshao 阅读(136) 评论(0) 推荐(0) 编辑
摘要: AI->机器学习分类图矩阵补课特征值分解EVD,奇异值分解SVD\(A\)是矩阵\(x_i\) 是单位特征向量\(\lambda_i\)是特征值\(\Lambda\) 是矩阵特征值EVD特征值分解(The eigenvalue value decomposition)针对方阵,特征值\(A = U\Lambda U^{-1} = U\Lambda U^T\)进行矩阵运算时,Ax,先对x分解\(x ... 阅读全文
posted @ 2020-08-27 14:58 Tolshao 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 系统相关系统安装工具系统安装、刻录工具U启动盘制作工具rufusWTG辅助工具wtg-assistantbootcamp蓝牙鼠标连不上重置SMC,关机,control➕option➕shift➕电源for10s,再开机Terminal——终端 系统允许任何来源安装包sudo spctl --master-disable 使其变为可执行脚本chmod u+x filename 更改skim背景色d... 阅读全文
posted @ 2020-08-27 14:54 Tolshao 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 动机🤔 有时候想看视频,遭遇1-2min的广告,望而却步 "歪,我要看的视频也就3min好嘛???" 有时候你想看个新闻,却还要装个Flash 有时候想看视频,遭遇1-2min的广告,望而却步 "歪,我要看的视频也就3min好嘛???" 有时候你想看个新闻,却还要装个Flash 想起乔帮主说的话 阅读全文
posted @ 2020-08-21 18:18 Tolshao 阅读(1043) 评论(0) 推荐(0) 编辑
摘要: 分享一个ios黄页工具,领取方式见文末黄页是什么说白了,可以理解为指电话号码簿,几乎世界每一个城市都有过这种纸张为载体所印制的电话号码本。【百度百科】定义:黄页是国际通用按企业性质和产品类别编排的工商企业电话号码簿,以刊登企业名称、地址、电话号码为主体内容,相当于一个城市或地区的工商企业的户口本,国际惯例用黄色纸张印制,故称黄页。黄页,起源于北美洲,1880年世界上第一本黄页电话号簿在美国问世,至... 阅读全文
posted @ 2020-07-28 11:45 Tolshao 阅读(729) 评论(0) 推荐(0) 编辑