Machine Learning --007
Machine Learning --007
自助法(Bootstrap)和极大似然法
如何对一堆数据进行建模分析?我们可以通过统计推断。比如我们可以求得其平均值/方差,然后看其接近哪种分布,这就是对数据的一种建模。
统计模型分两种,一种是参数模型,一种是非参数模型。前者,举个例子,我们可以通过设定平均值及方差,建立一个正态分布的模型,这个模型就属于参数模型。而后者,假如说需要无数个参数才能进行描述的模型,我们通常认为其是一种非参数模型。比如说一些概率分布很奇怪的数据,只能用PDF图来描述,这样的模型称之为非参数模型。
Bootstrap
自助法的思想前面已经说过了,这不再多说。
非参数自助法通过抽样来直接进行拟合。参数自助法则是通过抽样后求模型参数。假如有一堆数据,前者是抽取一部分数据,然后对这部分数据进行拟合就行;后者则是先建模——比如设定其是个正态分布,我们对通过抽样得到的数据进行求平均/求标准差进而得到正态分布的参数。
极大似然法(MLE)
我们首先设定某个随机样本满足某种概率分布(通过统计推断)。这样设定后具体的参数不清楚。但我们可以通过最大化样本如此呈现的可能性,来找到其对应的时刻的参数值。当然,假设我们手里有一堆数据,这些数据必须数据量够大,我们才可以说这些数据呈现出的状况就是这个分布对应的状况。否之,我们通过调节参数值呈现出来的这个最大的可能性,可能并不是真正的最大。
下面用数学一点的描述来说。
设
MLE有如下性质:
- 最大似然估计的抽样分布服从渐进正态分布。
其中
- Fisher 信息量。
。其中 是信息矩阵,其计算方法如下:
当线性(或线性化)统计模型具有多个参数时,参数估计器的均值是向量,其方差是矩阵。方差矩阵的逆被称为“信息矩阵”。因为参数矢量的估计量的方差是矩阵,所以“最小化方差”的问题是复杂的。统计学家使用统计理论,使用实值汇总统计数据压缩信息矩阵;作为实值函数,这些“信息标准”可以最大化。这也就是为什么Fisher计算方法如此。
最大期望(EM算法)
最大期望算法(Expectation-Maximization algorithm, EM),或Dempster-Laird-Rubin算法 ,是一类通过迭代进行极大似然估计的优化算法 ,通常作为牛顿迭代法(Newton-Raphson method)的替代用于对包含隐变量或缺失数据的概率模型进行参数估计。
假设我们有一组数据,这组数据由两组正态分布的数据混在一起构成。我们无法直接求出模型分布参数,那么我们可以先猜想隐含参数(EM 算法的 E 步),接着基于观察数据和猜测的隐含参数一起来极大化对数似然,求解我们的模型参数(EM算法的M步)。由于我们之前的隐含参数是猜测的,所以此时得到的模型参数一般还不是我们想要的结果。我们基于当前得到的模型参数,继续猜测隐含参数(EM算法的 E 步),然后继续极大化对数似然,求解我们的模型参数(EM算法的M步)。以此类推,不断的迭代下去,直到模型分布参数基本无变化,算法收敛,找到合适的模型参数。其实就是一种动态调整直到平衡的算法。
贝叶斯推断
核心思想是以先验推后验。我们设先验分布为
可以看到,后验与先验成正比。
如何利用贝叶斯相关的来预测未来的观测值
MCMC(Markov chain Monte Carlo)
Monte Carlo
一个常见的问题: 直接计算
Markov Chain
随机过程
MCMC
那么,如何构造一个平稳分布
这里用到的方法被称为MCMC(Markov Chain Monte Carlo)。有两个关键步骤:
- 从联合概率分布生成样本
- 使用生成的样本平均值估计期望值(MC积分)
GIbbs抽样
步骤如下:
- 假定
- 依次采样或更新
...
这种采样方法,我们可以用矩阵更简单地表示出来,这个矩阵就是Markov Chain中的转移矩阵。这也是为什么GIbbs抽样会放在MCMC中讲到。
Gibbs抽样与EM一样,都是求解模型参数的迭代算法。
Bagging and Bumping
Bagging
自助法(也即Bootstrap),是一种评估参数估计或预测准确性的方法。套袋法(Bagging),则是Bootstrap的集成形式,使用自助法生成样本预测数据分类器。
基本思想是:给定一个弱学习算法,和一个训练集;但是单个弱学习算法准确率不高;将该学习算法使用多次,得出预测函数序列,进行投票(回归的话直接平均就成);最后结果准确率将得到提高。
其优点在于:
- 减少方差,偏差不变
- 如果学习算法不稳定,那么该估计量还可以显著提高
问题在于: - 降低稳定程序的性能
- 套袋 (bagging) 后会丢失结构
Bumping
Bumping:Bootstrap Umbrella of Model Parameters。其实质是:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律