2020 年 8月 27 日随笔档案 - Tolshao

2020年8月27日

摘要：让hexo渲染MathJax复杂公式(默认的渲染引擎复杂公式会报错)Problem对复杂公式的支持不够好，简单公式可以显示，复杂编译错误，验证表明，问题不是mathjax.js导致，是默认hexo引擎编译导致html文本转义错误。ReasonHexo默认使用"hexo-renderer-marked"引擎渲染网页，该引擎会把一些特殊的markdown符号转换为相应的html标签，比如在markdo... 阅读全文

posted @ 2020-08-27 16:08 Tolshao 阅读(592) 评论(0) 推荐(0) 编辑

卷积神经网络CNN（convolutional）

摘要：卷积神经网络CNN（convolutional）卷积运算：原图像*卷积核=新图像，经常用来做边缘检测人造核：手动指定权重，改善效果指定核权重为变量，通过反向传播，学习卷积核的权重补白和步幅决定了卷积后的补白PaddingValid convolution：p = 0\(n\times n * f\times f -> (n-f+1)\times (n-f+1)\)Same convolution：... 阅读全文

posted @ 2020-08-27 16:05 Tolshao 阅读(911) 评论(0) 推荐(0) 编辑

Mac必备软件推荐，让你效率起飞🚀

摘要：系统工具效率Alfred置顶，比spotlight高效，支持各种插件，没有上限Appcleanermac卸载软件就靠它，一键拖入，彻底清理干净。想想CleanMyMac、Dr.Cleaner还收费，真是笑死人istate menus监控你的电脑，cpu、内存、网络、硬盘，你能想到的都有了handshaker老罗确实改变了世界，锤子出品必属精品，mac和手机连接的神器，有线和无线均可，Android... 阅读全文

posted @ 2020-08-27 16:01 Tolshao 阅读(1006) 评论(0) 推荐(0) 编辑

免费图床搭建:Github+Picgo+jsDelivr

摘要： Introduction简单说图床就是一个在网络上存储图片的地方，目的是为了节省本地服务器空间（.md和.html文件里图片是以链接的形式），加快图片打开速度，主要是个人博客和网站使用。微博图床：挂了已经SM.MS：国外服务，慢imgur：国外，被Q，慢七牛云：需要注册国内域名，备案麻烦阿里云：要花几块钱腾讯云：比阿里贵但是，Github也有缺点，比如不用爬墙访问慢等，会导致国内访问网页的时候，图... 阅读全文

posted @ 2020-08-27 15:59 Tolshao 阅读(424) 评论(0) 推荐(0) 编辑

强化学习笔记9：探索和利用 exploration and exploitation

摘要： 1、introduction本章的主题是关于利用和探索的矛盾：Exploitation：利用当前已知信息做决策Exploration：探索未知空间获取更多信息最佳的策略是用长期的眼光来看，放弃短期高回报获取足够策略是让策略变成全局最优的必要条件几个基本的探索方法：主要分三类：随机基于不确定性信息状态空间朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；乐... 阅读全文

posted @ 2020-08-27 15:12 Tolshao 阅读(3398) 评论(0) 推荐(1) 编辑

强化学习笔记8：整合学习和规划

摘要： 1、introduction第7章节，讲了PG，从episode经验学习到策略 policy之前的章节，讲了从episode 经验学习到价值函数本章，从过去经验学习到环境模型通过规划的手段，构建值函数或者策略Model-free 没有模型从经验中学习，得到价值函数 Model-based 有模型根据模型规划价值函数本讲指出解决这类问题的关键在于“前向搜索”和“采样”，通过将基于模拟的前向... 阅读全文

posted @ 2020-08-27 15:11 Tolshao 阅读(390) 评论(0) 推荐(1) 编辑

强化学习笔记7：策略梯度 Policy Gradient

摘要：之前的策略优化，用的基本都是\(\epsilon\)-greedy的policy improve方法，这里介绍policy gradient法，不基于v、q函数1. introduction策略梯度是以\(P(a|s)\)入手，概率\(\pi(s,a)\)的形式，同样是model free的\[\pi_{\theta}(s, a)=\mathbb{P}[a \mid s, \theta]\]调整策... 阅读全文

posted @ 2020-08-27 15:10 Tolshao 阅读(741) 评论(0) 推荐(0) 编辑

强化学习笔记6：值函数估计Value function Approximation

摘要： introductionv、q表的问题解决离散化的s,a,导致q-table存储量、运算量大解决连续s、a的表示问题solution用带权重估计函数，估计v or q\[\begin{aligned}\hat{v}(s, \mathbf{w}) & \approx v_{\pi}(s) \\\text { or } \hat{q}(s, a, \mathbf{w}) & \approx q_{\p... 阅读全文

posted @ 2020-08-27 15:09 Tolshao 阅读(826) 评论(0) 推荐(0) 编辑

强化学习笔记5：无模型控制 Model-free control

摘要：适用于：MDP model 未知：经验的采样可以获取MDP model 已知：无法使用（e.g.原子级动力学），采样可以使用策略、非策略学习：On-policy：动作采样来自policy \(\pi\)Off-policy：采样来自采样μ 或来自于其他策略\(\pi\)，On-policy MC control贪婪策略梯度法如果用V(s)，需要MDP已知对于已知MDP，可以通过策略迭代的方法，D... 阅读全文

posted @ 2020-08-27 15:08 Tolshao 阅读(418) 评论(0) 推荐(0) 编辑

强化学习笔记2：Markov decision process(MDP)

摘要：马尔科夫过程（Markov Process，MP）我们说一个state若满足，则其具有马尔可夫性，即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程，即随机状态序列具有马尔可夫属性。一个马尔科夫过程可以由一个元组组成\(\langle\mathcal{S}, \mathcal{P}\rangle\)\(\mathcal{S}\)为（有限）的状态（state）集；\(\ma... 阅读全文

posted @ 2020-08-27 15:07 Tolshao 阅读(444) 评论(0) 推荐(0) 编辑

强化学习笔记3：动态规划 planning by dynamic programming（DP）

摘要：规划，适用于MDP模型参数已知学习，适用于Env未知或部分未知概述动态规划分为两步，Prediction、Control（Prediction）Value:是对策略\(\pi\)的评价\[, \pi \rightarrow V_\pi\]（Control）Policy \(\pi\):是对Value的选择\[, V \rightarrow \pi \]方法：prediction：迭代法对所有状态s... 阅读全文

posted @ 2020-08-27 15:07 Tolshao 阅读(127) 评论(0) 推荐(0) 编辑

强化学习笔记4：无模型预测 model-free prediction

摘要： Introduction这一章，解决的是用prediction的方法，来评估策略\(\pi\)的问题。对于Env来说，不是参数已知的MDP比如元组中a、s、P的关系不确定 or 未知Prediction -> ControlEvaluation -> Optimization蒙特卡洛法 Monte-Carlo learning定义：在不清楚MDP状态转移及即时奖励的情况下，直接从经历完整的Epis... 阅读全文

posted @ 2020-08-27 15:07 Tolshao 阅读(529) 评论(0) 推荐(0) 编辑

强化学习笔记1：基本概念

摘要：概述强化学习是一门多学科交叉的技术与传统控制的关系：相似性：RLtraditional controlagentcontrollerenvplant + enviromentrewardfeedback（error signals）valueoptimize function不同点：传统的控制：将任务分解成多个任务的串并联，设计（子）控制器机器学习：将控制器压缩成黑盒Black box强化学习不同... 阅读全文

posted @ 2020-08-27 15:06 Tolshao 阅读(178) 评论(0) 推荐(1) 编辑

Keras & Tensorflow 笔记

摘要： Keras是一个高层神经网络API，Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生，能够把你的idea迅速转换为结果，如果你有如下需求，请选择Keras：简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）支持CNN和RNN，或二者的结合无缝CPU和GPU切换有串联式和函数式两种建模方式，串联式建模方式串联式... 阅读全文

posted @ 2020-08-27 15:04 Tolshao 阅读(291) 评论(0) 推荐(0) 编辑

从0 -> 1，拥有你的免费个人博客之“打个前站”

摘要：为什么想写个博客耍？我们在生活和工作中会遇到的各种问题，现在基本都能从互联网上找到答案，因为个体相较于群体，所能接触到的面，太窄，也太小了。以前常去“百度知道”去搜答案，上网的门槛逐步降低之后，“知道”也不知道了，碎片化的问答里总是充斥着各种水军、广告，令人窒息。现在，你询问搜索引擎的问题，大多会在“知乎”、“博客”找到答案，与“知道”不同的是，详实且完整，足可以指引你前进。然后就突发奇想，自己也... 阅读全文

posted @ 2020-08-27 15:04 Tolshao 阅读(133) 评论(0) 推荐(0) 编辑

机器学习-Coursera笔记

摘要： AI->机器学习分类图矩阵补课特征值分解EVD，奇异值分解SVD\(A\)是矩阵\(x_i\) 是单位特征向量\(\lambda_i\)是特征值\(\Lambda\) 是矩阵特征值EVD特征值分解（The eigenvalue value decomposition）针对方阵，特征值\(A = U\Lambda U^{-1} = U\Lambda U^T\)进行矩阵运算时，Ax，先对x分解\(x ... 阅读全文

posted @ 2020-08-27 14:58 Tolshao 阅读(345) 评论(0) 推荐(0) 编辑

Mac设置

摘要：系统相关系统安装工具系统安装、刻录工具U启动盘制作工具rufusWTG辅助工具wtg-assistantbootcamp蓝牙鼠标连不上重置SMC，关机，control➕option➕shift➕电源for10s，再开机Terminal——终端系统允许任何来源安装包sudo spctl --master-disable 使其变为可执行脚本chmod u+x filename 更改skim背景色d... 阅读全文

posted @ 2020-08-27 14:54 Tolshao 阅读(774) 评论(0) 推荐(0) 编辑

Tolshao

公告