Tolshao

2020年9月3日

摘要： RL回顾首先先来回顾一下强化学习问题中，环境Env 和代理Agent 分别承担的角色和作用。RL组成要素是Agent、Env代理和环境分别承担的作用 Agent：由Policy 和 RL_Algorithm构成，这种对RL_algorithm的算法理解比较宽泛policy负责将observation映射为actionRL_Algorithm负责优化policy，具有学习和搜索（规划）的能力 ... 阅读全文

posted @ 2020-09-03 11:40 Tolshao 阅读(844) 评论(0) 推荐(0) 编辑

2020年8月27日

hexo 进阶设置指南（持续更新）

摘要：让hexo渲染MathJax复杂公式(默认的渲染引擎复杂公式会报错)Problem对复杂公式的支持不够好，简单公式可以显示，复杂编译错误，验证表明，问题不是mathjax.js导致，是默认hexo引擎编译导致html文本转义错误。ReasonHexo默认使用"hexo-renderer-marked"引擎渲染网页，该引擎会把一些特殊的markdown符号转换为相应的html标签，比如在markdo... 阅读全文

posted @ 2020-08-27 16:08 Tolshao 阅读(595) 评论(0) 推荐(0) 编辑

卷积神经网络CNN（convolutional）

摘要：卷积神经网络CNN（convolutional）卷积运算：原图像*卷积核=新图像，经常用来做边缘检测人造核：手动指定权重，改善效果指定核权重为变量，通过反向传播，学习卷积核的权重补白和步幅决定了卷积后的补白PaddingValid convolution：p = 0\(n\times n * f\times f -> (n-f+1)\times (n-f+1)\)Same convolution：... 阅读全文

posted @ 2020-08-27 16:05 Tolshao 阅读(957) 评论(0) 推荐(0) 编辑

Mac必备软件推荐，让你效率起飞🚀

摘要：系统工具效率Alfred置顶，比spotlight高效，支持各种插件，没有上限Appcleanermac卸载软件就靠它，一键拖入，彻底清理干净。想想CleanMyMac、Dr.Cleaner还收费，真是笑死人istate menus监控你的电脑，cpu、内存、网络、硬盘，你能想到的都有了handshaker老罗确实改变了世界，锤子出品必属精品，mac和手机连接的神器，有线和无线均可，Android... 阅读全文

posted @ 2020-08-27 16:01 Tolshao 阅读(1060) 评论(0) 推荐(0) 编辑

免费图床搭建:Github+Picgo+jsDelivr

摘要： Introduction简单说图床就是一个在网络上存储图片的地方，目的是为了节省本地服务器空间（.md和.html文件里图片是以链接的形式），加快图片打开速度，主要是个人博客和网站使用。微博图床：挂了已经SM.MS：国外服务，慢imgur：国外，被Q，慢七牛云：需要注册国内域名，备案麻烦阿里云：要花几块钱腾讯云：比阿里贵但是，Github也有缺点，比如不用爬墙访问慢等，会导致国内访问网页的时候，图... 阅读全文

posted @ 2020-08-27 15:59 Tolshao 阅读(433) 评论(0) 推荐(0) 编辑

强化学习笔记9：探索和利用 exploration and exploitation

摘要： 1、introduction本章的主题是关于利用和探索的矛盾：Exploitation：利用当前已知信息做决策Exploration：探索未知空间获取更多信息最佳的策略是用长期的眼光来看，放弃短期高回报获取足够策略是让策略变成全局最优的必要条件几个基本的探索方法：主要分三类：随机基于不确定性信息状态空间朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；乐... 阅读全文

posted @ 2020-08-27 15:12 Tolshao 阅读(3894) 评论(0) 推荐(1) 编辑

强化学习笔记8：整合学习和规划

摘要： 1、introduction第7章节，讲了PG，从episode经验学习到策略 policy之前的章节，讲了从episode 经验学习到价值函数本章，从过去经验学习到环境模型通过规划的手段，构建值函数或者策略Model-free 没有模型从经验中学习，得到价值函数 Model-based 有模型根据模型规划价值函数本讲指出解决这类问题的关键在于“前向搜索”和“采样”，通过将基于模拟的前向... 阅读全文

posted @ 2020-08-27 15:11 Tolshao 阅读(413) 评论(0) 推荐(1) 编辑

强化学习笔记7：策略梯度 Policy Gradient

摘要：之前的策略优化，用的基本都是\(\epsilon\)-greedy的policy improve方法，这里介绍policy gradient法，不基于v、q函数1. introduction策略梯度是以\(P(a|s)\)入手，概率\(\pi(s,a)\)的形式，同样是model free的\[\pi_{\theta}(s, a)=\mathbb{P}[a \mid s, \theta]\]调整策... 阅读全文

posted @ 2020-08-27 15:10 Tolshao 阅读(861) 评论(0) 推荐(0) 编辑

强化学习笔记6：值函数估计Value function Approximation

摘要： introductionv、q表的问题解决离散化的s,a,导致q-table存储量、运算量大解决连续s、a的表示问题solution用带权重估计函数，估计v or q\[\begin{aligned}\hat{v}(s, \mathbf{w}) & \approx v_{\pi}(s) \\\text { or } \hat{q}(s, a, \mathbf{w}) & \approx q_{\p... 阅读全文

posted @ 2020-08-27 15:09 Tolshao 阅读(910) 评论(0) 推荐(0) 编辑

强化学习笔记5：无模型控制 Model-free control

摘要：适用于：MDP model 未知：经验的采样可以获取MDP model 已知：无法使用（e.g.原子级动力学），采样可以使用策略、非策略学习：On-policy：动作采样来自policy \(\pi\)Off-policy：采样来自采样μ 或来自于其他策略\(\pi\)，On-policy MC control贪婪策略梯度法如果用V(s)，需要MDP已知对于已知MDP，可以通过策略迭代的方法，D... 阅读全文

posted @ 2020-08-27 15:08 Tolshao 阅读(452) 评论(0) 推荐(0) 编辑

公告