关于l2范数正则化与高斯先验问题

前言

我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题;我们选择了非常精确的逻辑回归作为模型类,其中我们为每个特征指定了一个权重。这是不现实的,因为任何这样的模型的编码长度都是无限的,但如果我们对权值使用高斯先验并忽略常数因子,我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解,我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。

1. 问题描述

\((x_1,……,x_n)\)是一组示例。设\((y_1,……,y_n),y_i∈\{+1,−1\}\),是一组二进制标签的例子。我们要解决的问题是如何尽可能有效地对标签进行编码。标签本身几乎没有什么内部结构;我们使用示例中的信息来帮助预测标签。压缩是判断系统学习程度的一种自然方式。在这种情况下,压缩就判断了使用这些例子来预测标签的有效性。请注意,为了使用这些示例,我们必须编码提取信息的机制,因此该框架施加了一种自然的正则化。

2. 编码

为了对标签进行编码,我们使用一个线性分类器来估计一个条件分布。在一部分中,我们编码线性分类器的权重,在第二部分中,我们编码标签,因为它们没有被分类器指定。定义:

\[p(y_i=+1|x_i;\overrightarrow{W})=g(\sum \limits_{k=0}^lx_{ik}W_k) \tag 1 \]

为例子\(x_i\)为正的标签\(y_i\)的条件概率。\(g(z)=\frac{1}{1+1e^{−z}}\)是逻辑函数。\(x_{ik}\)是例子i的第k个特征的值。\(W_k\)是特征\(k\)的权重。\(k=0\)是特殊的“偏差”特征;\(x_{i0}=1\)对于所有, \(l\)是无偏差特征的数量。让\(z_i=\sum_k x_{ik}w_k\)。那么,如果我们忽略了编码的离散实用性,则标签\(y_i\)的编码长度为:

\[L(y_i|x_i;\overrightarrow{W})=-log \ g(y_iz_i) \tag 2 \]

Proof:

\[1-g(z)=\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^z}=g(-z) \tag {2*} \]

剩下要编码的就是权重。为了编码权值,我们假设有一个均值为零,方差为σ2的高斯先验:

\[p(w_k)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{w_k^2}{2\sigma^2}) \tag 3 \]

但这是一个密度,而不是我们所要求的概率质量函数。然而,我们并不关心绝对编码长度——相对编码长度就足够了,因为我们正在比较一个限制类中的模型。利用这个先验并将其作为一个概率质量函数,我们得到一个(相关的)编码长度:

\[L(w_k)=-log\ p(w_k) \tag 4 \]

现在,我们可以写下总的编码长度了。总编码长度将所有标签和所有权重的编码长度求和。我们没有考虑“偏差”的权重。总编码长度为:

\[L_{tot}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l(\frac{1}{2}log(2\pi \sigma^2)+\frac{w_k^2}{2\sigma^2}) \tag 5 \]

3. 正则化逻辑回归

逻辑回归最大限度地提高了标签的(对数)可能性,其中标签的可能性如公式1中所定义的。我们减去l2范数的平方的一个常数倍数来正则化权值。这就给了我们一个目标:

\[J_{lr}=\underline{\sum \limits_{i}log\ g(y_iz_i)}-\frac{C}{2}\sum \limits_{k=1}^lw_k^2 \tag 6 \]

其中,下划线处(利用式二)还以写成:

\[\sum \limits_{l}y_i log\ g(z_i)+(1-y_i)log\ (1-g(z_i)) \tag {6*} \]

(6)式需要我们最大化的。

为了最小化上述定义的总编码长度,我们可以忽略\(\frac{1}{2}log(2πσ^2)\)常量项。因此,我们希望最小化的编码长度目标是:

\[L_{tot}^{'}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l\frac{w_k^2}{2\sigma^2} \tag 7 \]

反转符号并替换\(C=\frac{1}{σ^2}\),得到了正则化的逻辑回归目标。

4. 结论

从第3节中可以清楚地看出,用于逻辑回归(和其他学习算法)的l2-范数正则化器不是任意的,而是对权值施加高斯先验的直接结果。

posted @ 2022-01-13 11:37  为红颜  阅读(148)  评论(0编辑  收藏  举报