Logistic 两种标签对应的损失函数
1 标签 \(y \in \{0, 1\}\)
通常我们在计算 Logistic Regression 经验风险损失是在假设数据集标签 \(y \in \{0, 1\}\)时,利用极大似然估计可以得到:
\[L(w) = -\sum_{i=1}^{N}y_i\log p_i + (1-y_i)\log(1-p_i)
\]
其中,\(N\) 为训练样本数量,\(p_i = P(y=1|x) = \frac{e^{wx}}{1+e^{wx}}\).
则对于单个样本损失函数可以记为
\[- [y_i\log p_i + (1-y_i)\log(1-p_i)]
\]
2 标签 \(y \in \{-1, 1\}\)
但是,当数据标签 \(y \in \{-1, 1\}\) 时,其损失函数可以记为
\[\log(1 + \exp(-2yf))
\]
其中,\(f = wx\).
证明:
其实,\(y \in \{0, 1\}\) 到 \(y^* \in \{-1, 1\}\),相当于作了一个映射 \(y^* = 2y-1\). 同时设 \(f = wx\),则:
\[\begin{aligned}
& - \left[y_i \log p_i + (1-y_i)\log(1-p_i) \right] \\
& = -\left[\mathbb I(y=1)\log p_i + \mathbb I(y=0)\log(1-p_i) \right] \\
& = -\left[\mathbb I(y=1)\log \left(\frac{e^{wx_i}}{1+e^{wx_i}} \right) + \mathbb I(y=0) \log \left(1-\frac{e^{wx_i}}{1+e^{wx_i}}\right) \right] \\
& = -\left[\mathbb I(y^*=1) \log \left(\frac{1}{1+e^{-f_i}} \right) + \mathbb I(y^*=-1) \log \left(\frac{1}{1+e^{f_i}}\right) \right] \\
& = \log(1 + \exp(-y^*f_i))
\end{aligned}
\]
其中,\(\mathbb I(\cdot)\) 为指示函数。
上面得到的结果与 \(\log(1+\exp(-2yf))\) 相差一个常数 2,这并不影响结果。其实,如果想要结果一致,只要在证明中假设
\[p_i = \frac{e^{wx}}{e^{wx} + e^{-wx}} = \frac{e^f}{e^f + e^{-f}} = \frac{1}{1+ e^{-2f}}
\]
即可。