yijun0730 - 博客园

5. 值函数近似——Deep Q-learning

摘要：前4篇，我们都是假设动作值函数Q是一张大表，状态-动作对都是一一对应的。这对于现实应用状态动作空间很大的情况来说，计算量就非常的大，甚至根本无法求解这样一张大表。因此，我们引入状态值函数v，由参数$\bf{w}$描述，我们希望， \[\hat v(s,{\bf{w}}) \approx {v_\pi 阅读全文

posted @ 2019-01-17 22:16 yijun0730 阅读(683) 评论(0) 推荐(0) 编辑

七、集成学习

摘要：集成学习（ensemble learning）通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。集成方法相比于单一模型需要更多的计算，因此有时候也认为是用更多的计算来弥补弱模型。同时，这也导致模型中的每个参数所包含的信息量比单一模型少很多，导致太多的冗余。理论上来说，集成模型也比单阅读全文

posted @ 2018-12-24 21:35 yijun0730 阅读(464) 评论(0) 推荐(0) 编辑

4. 免模型策略改进——蒙特卡洛（Monte-Carlo）和时序差分（Temporal-Difference）

摘要：针对马尔科夫模型不完全已知，即转移概率未知，不能全概率展开的情况，上一篇介绍了策略评估的方法，这一篇对应介绍策略改进的方法，分别是针对每一个完整决策过程，先估计策略再改进策略的蒙特卡洛同策略学习方式；针对完整决策过程中的每一步状态动作对生成，评估改进同一个策略$\pi$的时序差分同策略Sarsa 阅读全文

posted @ 2018-12-18 21:04 yijun0730 阅读(1251) 评论(0) 推荐(0) 编辑

随机采样方法（接受-拒绝采样，MCMC蒙特卡洛采样、Gibbs采样）

摘要：如果我们要求$f(x)$的积分，可化成， \[\int {\frac{{f(x)}}{{p(x)}}p(x)dx} \] $p(x)$是x的概率分布，假设${g(x) = \frac{{f(x)}}{{p(x)}}}$，然后在$p(x)$的分布下，抽取x个样本，当n足够大时，可以采用均值来近似$f( 阅读全文

posted @ 2018-12-17 21:59 yijun0730 阅读(13322) 评论(0) 推荐(2) 编辑

马尔科夫细致平稳条件

摘要：举一个经典的例子，社会学家经常把人按其经济状况分成3类：下层、中层、上层，我们用1,2,3 分别代表这三个阶层。社会学家们发现决定一个人的收入阶层的最重要的因素就是其父母的收入阶层。如果一个人的收入属于下层类别，那么他的孩子属于下层收入的概率是 0.65, 属于中层收入的概率是 0.28, 属于上层阅读全文

posted @ 2018-12-17 21:01 yijun0730 阅读(4868) 评论(0) 推荐(0) 编辑

六、模型评估与选择

摘要： 1. 经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为“错误率”（error rate），相应的，“精度”（accuracy）为1-错误率。更一般地，我们把学习模型的实际预测输出与样本的真实输出之间的差异称为“误差”（error）。学习模型在训练集上的误差称为“训练误差”（阅读全文

posted @ 2018-12-07 11:48 yijun0730 阅读(441) 评论(0) 推荐(0) 编辑

五、神经网络

摘要： 1. 神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元 (neuron)模型，即上述定义中的"简单单元"在生物神经网络中，每个神经元与其他神经元相连，当它"兴奋"时，就会向相连的神经元发送阅读全文

posted @ 2018-12-03 18:00 yijun0730 阅读(835) 评论(0) 推荐(0) 编辑

高斯分布

摘要：高斯分布亦称正态分布，是应用最为广泛的连续概率分布。 1.一维高斯分布标准的正态分布为， \[p(x) = \frac{1}{{\sqrt {2\pi } }}\exp ( - \frac{{{x^2}}}{2})\] 令$\mu$表示均值，$\sigma ^2$表示方差，一般的正态分布为， \[ 阅读全文

posted @ 2018-11-30 10:45 yijun0730 阅读(1773) 评论(0) 推荐(0) 编辑

四、贝叶斯分类器

摘要：贝叶斯决策论 (Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都己知的理想情形，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯模型的基本形式为 \[P(c|{\bf{x}}) = \frac{{P(c)P({\ 阅读全文

posted @ 2018-11-27 11:36 yijun0730 阅读(614) 评论(0) 推荐(0) 编辑

拉格朗日乘子法

摘要：拉格朗日乘子法 (Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法.通过引入拉格朗日乘子，可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d + k 个变量的无约束优化问题求解。本文希望通过一个直观简单的例子尽力解释拉格朗日乘子法和KKT条件的原理。阅读全文

posted @ 2018-11-24 17:02 yijun0730 阅读(2643) 评论(0) 推荐(1) 编辑

导航