Logistic Regression 的推导以及与 logit loss 之间的关系

最初是一个线性分类器 \(f(x) = w^Tx+b\)，设类别为 \(y\in\{+1, -1\}\) ，规定当 \(f(x)>0\) 预测为 \(y=+1\)；当 \(f(x)<0\), 预测为 \(y=-1\)。

引入 sigmoid 函数 \(\sigma(z) = \frac{1}{1+\exp(-z)}\) 将\(f(x)\) 的输出从 \([-\infty, +\infty]\) 变到 \([0,1]\) 区间，并使之有概率解释：

\[P(y_i=1) \triangleq \sigma(f(x_i)) \]

注意到，sigmoid 函数有一个非常好的性质： \(1 - \sigma(z) = \sigma(-z)\)，于是有：

\[P(y_i=-1) = 1- P(y_i=1)= 1- \sigma(f(x_i)) = \sigma(-f(x_i)) \]

然后采用极大似然法，对于给定数据集 \(\{(x_i,y_i)\}_{i=1}^n\)，最大化在此数据集上的似然函数：

\[\max\, likehood(\{(x_i,y_i\}_{i=1}^n) \triangleq \Pi_{i=1}^n \big(P(y_i=1)^{I(y_i=1)}P(y_i=-1)^{I(y_i=-1)}\big) \]

取\(\log\), 然后公式简单变形，等价于采用 log loss，优化负对数似然 loss:

\[\min-\sum_{i=1}^n\log\big(P(y_i=1)^{I(y_i=1)}P(y_i=-1)^{I(y_i=-1)}\big) \]

\[= \min-\sum_{i=1}^n\big[{I(y=1)}\log\big(P(y_i=1)\big)+ {I(y=-1)}\log\big(P(y_i=-1)\big)\big] \]

然而推导得到：

\[P(y_i=1)^{I(y_i=1)}P(y_i=-1)^{I(y_i=-1)}=\begin{cases} \sigma(f(x_i)), \quad y_i=1\\ \sigma(-f(x_i)), \quad y_i=-1\\ \end{cases} = \sigma(y_i \cdot f(x_i)) \]

于是对于 \(y\in\{+1,-1\}\), 可以定义 logit loss：

\[\ell_{logit}(x, y) \triangleq -log(\sigma(y\cdot f(x))) = \log(1+\exp(-y\cdot f(x))) \]

如果把 \(y\cdot f(x)\) 视为 margin，则 logit loss function 可以定义为：

\[\ell_{logit}(z) \triangleq \log(1+\exp(-z)) \]

巧妙之处在于：

\(\ell_{logit}(z)\) 这一 loss 的简单形式，恰好对应到 Logistic Regression 这个分类器。于是研究这一 loss function 的一些性质，例如相容性，凸性等，就相当于是在研究 logistic regression 这一算法。
[5] 中提及 \(\ell_{logit}(z)\) 相当于 cross-entropy loss 在二分类情形下的版本

PS：西瓜书，李航老师的《统计学习方法》，《Understanding Machine Learning》都有提到过 logit loss function。

注意到当假定 \(y\in\{0,1\}\)（例如：西瓜书就是采用 \(y\in\{0,1\})\), 无法得到上面简洁的 logit loss function。
假定 \(y\in\{0,1\}\), 可以接着式子

\[\log\big(P(y_i=0)^{I(y_i=1)}P(y_i=-1)^{I(y_i=1)}\big) = {I(y=1)}\log\big(P(y_i=1)\big)+ {I(y=0)}\log\big(P(y_i=0)\big) \]

进行推导，也能得到一些结果，得到简化后的 loss function 形式，参见西瓜书和《Understanding Machine Learning》。

Reference:
[1] ICML-16 Revisiting Semi-Supervised Learning with Graph Embeddings
[2] CVPR-19 Class-Balanced Loss Based on Effective Number of Samples
[3] JASA-06 Convexity, classification, and risk bounds
[4] 另一篇 Paper 中也提及此 logit loss 的推导，但有一些忘记了。应该是 noisy label 相关的 paper 或者一些函数的性质的 paper。
[5] Gradient descent optimizes over-parameterized deep ReLU Networks

posted @ 2020-11-30 21:01 Gelthin 阅读(525) 评论(0) 编辑收藏举报

刷新页面返回顶部

Gelthin

在机器学习的世界里上下求索

Logistic Regression 的推导以及与 logit loss 之间的关系

公告