统计学习理论

Background

统计学习的三要素包括模型、策略、算法。

统计学习方法概括如下:

假设数据是由独立同分布产生的

概念:是一个从样本空间X到标记空间Y的映射,如果对于任何的样例(x,y)都有c(x)=y,那么称作c为目标概念,目标概念的集合为目标概念类,记为C

  1. 模型:假设要学习的模型属于某一种函数的集合,称为假设空间(Hypothesis Space)
  2. 策略:应用某一个评价准则,从从假设空间选取一个最优的模型,使得已知数据和位置数据在模型下有最佳的预测
  3. 算法:最优模型的选取有算法实现

假设空间

Mark:不正式的讲,我们在建模的时候,第一步就是要选择一个特定的模型比如 SVM。一旦选择了一个模型,就相当于我们选择了一个假设空间H。在一个假设空间里,我们通常会有无数种不同的解,一个优化算法(比如梯度下降法)做的事情就是从中选择最好的一个解或者多个解,当然优化过程要依赖于样本数据。

正式的讲,假设空间H是一个函数集合,从输入空间映射至输出空间的函数。

而满足训练集的假设空间称为版本空间,版本空间是假设空间的一个子集,是与训练集一致的假设的集合。

Inductive Bias

如果版本空间中有多个假设,那么我们需要选择一个假设,这就涉及到归纳偏置。归纳偏置是学习算法在学习过程中对某种类型假设的偏好

然而,确定一个归纳偏置是有歧义的,因为无法定义这类概念。因此,归纳偏置是一个经验性的偏好

我们观察 NFL 定理,我们标记为H为假设空间,La为学习算法,f为目标函数,P(h|X,La)为学习算法在数据集下产生的假设h的概率

E(La|X,f)=hE[I(h(x)f(x))|h]P(h|X,La)

策略

风险函数

我们可以定义损失函数,损失函数越低模型就越好,可以考察损失函数的期望值,被定义为风险函数/期望损失

Rexp(f)=Ep[L(y,f(x))]=x,yL(y,f(x))p(x,y)dxdy

然而, 我们一般不能获取到 joint 分布,因此我们经常使用模型f(x)关于训练集的经验风险/经验损失

Remp(f)=1NL(yi,f(xi))

N时,根据大数定律,经验损失趋近于期望损失,然而实际情况下训练集样本量很少,需要对经验风险进行矫正,这样就涉及到两种基本策略:经验风险最小化和结构风险最小化

经验风险最小化就是argminfFRemp(f), 当样本容量很小的时候,会产生 over-fitting。

结构风险最小化就是argminfF1NL(yi,f(xi))+λJ(f),其中J(f)时定义在f上的泛函,可以被称为正则项/罚项。结构风险最小化等价于正则化。

泛化能力

我们在训练集上训练出来的模型,我们希望它在未知的数据上也能有很好的表现,这就是泛化能力。

然而在实践中,很难直接获取泛化能力,我们可以使用获取的测试集上的损失来近似泛化能力。

这样的评价指标一般是不可靠的,因为测试集是有限的,我们定义泛化误差(gernerlization error),也就是期望风险为

Rexp(f)=Ep[L(y,f(x))]=x,yL(y,f(x))p(x,y)dxdy

分析学习方法的泛化能力常常通过分析泛化误差上界进行。

bias-variance tradeoff

我们使用偏差和方差两个指标来评价模型的能力。

假设我们训练的时候使用采样的数据集D,样本真实标记为f(x),采样出的标记为f(x)+ϵf(x;D)为训练出的模型,ϵ为噪声

那么对于回归问题在平均意义下,算法的期望预测为

f^(x)=ED[f(x;D)]

那么我们可以定义模型的偏差为

bias2(x)=(ED[f(x;D)]f(x))2

方差为

var(x)=ED[(f(x;D)ED[f(x;D)])2]

那么期望泛化误差

ED[(f(x;D)f(x)ϵ)2]=bias2(x)+var(x)+ϵ2

可以简单地理解为,当模型复杂度/训练轮数上升到一定程度时,偏差降低,但是方差上升,因此我们需要在偏差和方差之间取一个平衡。

MLE, MAP, Bayesian

获得数据形式X=(x1,,xN)N×PT

  • MLE

    假设xi ~ p(x;θ)

    θMLE=argmaxθp(X;θ)

    当函数 convex 时,可以使用充要条件求梯度=0;当函数 non-convex 时,可以使用EM 算法迭代求解。

    在一定条件下,MLE 和经验风险最小化等价,详见《统计学习方法》习题 1.2

    同时,MLE 等价于 最小化数据分布与真实分布的 KL 散度

    θ=argminθi=1Nlogpθ(xi;θ)Expdata[logpθ(x;θ)]=argminθExpdata[logpθ(x;θ)pdata(x)]=argminθpdata(x)logpθ(x;θ)pdata(x)dx=argminθKL(pdata||pθ)

  • MAP

    θMAP=argmaxp(θ|X)=argmaxp(X|θ)p(θ)p(X,θ)dθ=argmaxp(X|θ)p(θ)

    MLE 和 MAP 的最重要的区别是是否将θ也作为一个随机变量考察分布。

    但是也在一定方面有联系

  1. 比如添加正则的回归和带高斯先验的回归实际上是等价的。

添加 L2 正则的回归,我们的优化目标为

WMLE=argminlogp(X|W)+λW22

如果是带有高斯先验的 MAP,我们的优化目标为

WMLE=argmaxp(X|W)p(W)=argminlogp(X|W)p(W)=argminlogp(X|W)logp(W)

那么最终第二项会形成一个W|2的状态

  • 样本量逐渐增大时,MAP 逐渐等价于 MLE

limNlogp(X|W)logp(W)=limNlogp(xi|W)logp(W)=logp(xi|W)

MLE 比 MAP 更容易过拟合。因为 MLE 在求解最优θ时,没有对θ有先验的指导,因此 X 中包括了一些outlier的数据样本时,就会很轻易让 MLE 去拟合 outlier 样本。而 MAP 加入了对 θ 的先验指导,例如 L2 正则化,那么就不易过拟合了。

  • Bayesian Predict

    θ也看作一个分布,但是在预测的时候并不求解最优的一个参数值θ,而是直接使用θ的分布对所有模型的结果做加权求和。(假设新获取的数据x^X在给定θ条件下独立同分布)

    p(x^|X)=p(x^,θ|X)dθ=p(x^|θ)p(θ|X)dθ

    _Mark: $p(\hat{x},\theta | X) = \frac{p(\hat{x},\theta, X)}{p(X)} = \frac{p(\hat{x} | \theta, X) p(\theta, X)}{p(X)} = \frac{p(\hat{x} | \theta) p(\theta, X)}{p(X)} = p(\hat{x} | \theta) p(\theta | X) p(\theta | X)$,就需要对联合分布进行求解:

    p(θ|X)=p(X|θ)p(θ)p(X|θ)p(θ)dθ

    对于联合分布,是非常难以求解的,在经典应用 Markov Random Field 中就有提及,我们可以使用确切推断/近似推断来求解这样一个联合概率,比如说变量消除 or MCMC or 变分推断。

posted @   Blackteaxx  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示