关于l2范数正则化与高斯先验问题

前言

我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题；我们选择了非常精确的逻辑回归作为模型类，其中我们为每个特征指定了一个权重。这是不现实的，因为任何这样的模型的编码长度都是无限的，但如果我们对权值使用高斯先验并忽略常数因子，我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解，我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。

1. 问题描述

设\((x_1，……，x_n)\)是一组示例。设\((y_1，……，y_n)，y_i∈\{+1，−1\}\)，是一组二进制标签的例子。我们要解决的问题是如何尽可能有效地对标签进行编码。标签本身几乎没有什么内部结构；我们使用示例中的信息来帮助预测标签。压缩是判断系统学习程度的一种自然方式。在这种情况下，压缩就判断了使用这些例子来预测标签的有效性。请注意，为了使用这些示例，我们必须编码提取信息的机制，因此该框架施加了一种自然的正则化。

2. 编码

为了对标签进行编码，我们使用一个线性分类器来估计一个条件分布。在一部分中，我们编码线性分类器的权重，在第二部分中，我们编码标签，因为它们没有被分类器指定。定义：

\[p(y_i=+1|x_i;\overrightarrow{W})=g(\sum \limits_{k=0}^lx_{ik}W_k) \tag 1 \]

为例子\(x_i\)为正的标签\(y_i\)的条件概率。\(g(z)=\frac{1}{1+1e^{−z}}\)是逻辑函数。\(x_{ik}\)是例子i的第k个特征的值。\(W_k\)是特征\(k\)的权重。\(k=0\)是特殊的“偏差”特征；\(x_{i0}=1\)对于所有, \(l\)是无偏差特征的数量。让\(z_i=\sum_k x_{ik}w_k\)。那么，如果我们忽略了编码的离散实用性，则标签\(y_i\)的编码长度为:

\[L(y_i|x_i;\overrightarrow{W})=-log \ g(y_iz_i) \tag 2 \]

Proof:

\[1-g(z)=\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^z}=g(-z) \tag {2*} \]

剩下要编码的就是权重。为了编码权值，我们假设有一个均值为零，方差为σ2的高斯先验:

\[p(w_k)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{w_k^2}{2\sigma^2}) \tag 3 \]

但这是一个密度，而不是我们所要求的概率质量函数。然而，我们并不关心绝对编码长度——相对编码长度就足够了，因为我们正在比较一个限制类中的模型。利用这个先验并将其作为一个概率质量函数，我们得到一个（相关的）编码长度:

\[L(w_k)=-log\ p(w_k) \tag 4 \]

现在，我们可以写下总的编码长度了。总编码长度将所有标签和所有权重的编码长度求和。我们没有考虑“偏差”的权重。总编码长度为：

\[L_{tot}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l(\frac{1}{2}log(2\pi \sigma^2)+\frac{w_k^2}{2\sigma^2}) \tag 5 \]

3. 正则化逻辑回归

逻辑回归最大限度地提高了标签的（对数）可能性，其中标签的可能性如公式1中所定义的。我们减去l2范数的平方的一个常数倍数来正则化权值。这就给了我们一个目标:

\[J_{lr}=\underline{\sum \limits_{i}log\ g(y_iz_i)}-\frac{C}{2}\sum \limits_{k=1}^lw_k^2 \tag 6 \]

其中，下划线处(利用式二)还以写成：

\[\sum \limits_{l}y_i log\ g(z_i)+(1-y_i)log\ (1-g(z_i)) \tag {6*} \]

（6）式需要我们最大化的。

为了最小化上述定义的总编码长度，我们可以忽略\(\frac{1}{2}log(2πσ^2)\)常量项。因此，我们希望最小化的编码长度目标是:

\[L_{tot}^{'}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l\frac{w_k^2}{2\sigma^2} \tag 7 \]

反转符号并替换\(C=\frac{1}{σ^2}\)，得到了正则化的逻辑回归目标。

4. 结论

从第3节中可以清楚地看出，用于逻辑回归（和其他学习算法）的l2-范数正则化器不是任意的，而是对权值施加高斯先验的直接结果。

posted @ 2022-01-13 11:37 为红颜阅读(148) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

一笑为红颜

关于l2范数正则化与高斯先验问题

前言

1. 问题描述

2. 编码

3. 正则化逻辑回归

4. 结论

公告