函数

sigmod函数

\[y = \frac{1}{1+e^{-x}} \]

原始条件概率

\[P(Y|X) = \frac{1}{1+e^{-(W^{T}x+b)}} \]

对于一个二分类问题：

\[P(y=1|x,w) = \frac{1}{1+e^{-(W^{T}x+b)}} \]

\[P(y=0|x,w) = \frac{e^{-(W^{T}x+b)}}{1+e^{-(W^{T}x+b)}} = 1-P(y=1|x,w) \]

两个公式可以合并成：

\[P(y|x,w) = P(y=1|x,w)^y [1-p(y=1|x,w)]^{1-y} \]

定义目标函数

假设我们的数据集\(D = \left \{ (x_i,y_i) \right \} ^{n}_{i=1} \qquad x_i\in R^d \qquad y_i \in \left \{ 0,1\right \}\)
而且我们定义了如下式子：

\[P(y|x,w) = P(y=1|x,w)^y [1-p(y=1|x,w)]^{1-y} \]

我们需要最大化的目标函数：

\[\widehat{W}_{MLE}, \widehat{b}_{MLE} = argmax_{w,b}\prod_{i=1}^{n}p(y_i|x_i,w,b) \]

注意:

\(\prod_{i=1}^{n}x_i = x_1*x_2*x_3...*x_n\)

\(\sum_{i=1}^{n} = x_1+x_2+x_3...+x_n\)

下面开始推导：
我们需要最大化的目标函数，

\[\widehat{W}_{MLE}, \widehat{b}_{MLE} = argmax_{w,b}\prod_{i=1}^{n}p(y_i|x_i,w,b) \]

由于右边是连乘，可能会导致计算机计算的时候出现溢出，所以采取加对数log的处理方法，即

\[\widehat{W}_{MLE}, \widehat{b}_{MLE} = argmax_{w,b} \qquad log \qquad (\prod_{i=1}^{n}p(y_i|x_i,w,b)) \]

\[\widehat{W}_{MLE}, \widehat{b}_{MLE} = argmax_{w,b} \qquad \sum_{i=1}^{n} log \qquad p(y_i|x_i,w,b) \]

注意:

\(\log_{}{xyz} = \log_{}{x}+ \log_{}{y}+ \log_{}{z}\)

对于最大化问题，我们一般取最小化，即

\[\widehat{W}_{MLE}, \widehat{b}_{MLE} = argmin_{w,b} \qquad -\sum_{i=1}^{n} log \qquad p(y_i|x_i,w,b) \]

由于

\[P(y|x,w,b) = P(y=1|x,w,b)^y*[1-P(y=1|x,w,b)]^{1-y} \]

所以

\[argmin_{w,b} \qquad -\sum_{i=1}^{n} log \qquad \left [ P(y=1|x,w,b)^y *[1-P(y=1|x,w,b)]^{1-y} \right ] \]

\[argmin_{w,b} \qquad -\sum_{i=1}^{n} \qquad \left [ \qquad y *log P(y=1|x,w,b) +(1-y)log \left [ 1-P(y=1|x,w,b) \right ] \qquad \right ] \qquad \]

我们令

\[P(y=1|x,w) = \frac{1}{1+e^{-(W^{T}x+b)}}=\sigma (W^{T}x+b) \]

由此可得

\[argmin_{w,b} \qquad -\sum_{i=1}^{n} \qquad \left [ \qquad y *log \sigma (W^{T}x+b) +(1-y)log \left [ 1-\sigma (W^{T}x+b) \right ] \qquad \right ] \qquad \]

\(\sigma (x) = \frac{1}{1+e^x}\)

\({\sigma (x)}' = \sigma (x)*[1-\sigma (x)]\)

\({\log_{}{x}}' = \frac{1}{x}\)

我们对\(W\)进行求导

\[\frac{\partial L(W,b)}{\partial W} = -\sum_{i=1}^{n} \left [ y_i*\frac{\sigma (W^Tx_i+b)*[1-\sigma(W^Tx_i+b)]}{\sigma (W^Tx_i+b)} *x_i + (y_i-1)*\frac{\sigma (W^Tx_i+b)*[1-\sigma(W^Tx_i+b)]}{1-\sigma (W^Tx_i+b)} *x_i \right ] \]

\[\frac{\partial L(W,b)}{\partial W} = -\sum_{i=1}^{n}\left [ y_i*[1-\sigma(W^Tx_i+b)] *x_i + (y_i-1)*\sigma (W^Tx_i+b) *x_i\right ] \]

\[\frac{\partial L(W,b)}{\partial W} = \sum_{i=1}^{n} \left [ \sigma(W^Tx_i+b) -y_i \right]*x_i \]

使用梯度下降求解

经典问题

是否可以用线性回归来表示\(P(Y|X) = W^{T}x+b\) ? 为什么？

答：
不可以！
因为\(P(Y|X)\)为条件概率，那么既然是条件概率，那么就应该满足以下两个条件：

\[\begin{cases} 0\le P(Y|X) \le 1 \\ \sum P(Y|X) = 1 \end{cases} \]

然而，很明显，

\[ -\infty \le W^{T}x + b \le +\infty \]

也就是，

\[P(Y|X) ≠ W^{T}x + b \]

\[(0,1) ≠ (-\infty ,+\infty ) \]

综上，不可以！

逻辑回归分类器是一个线性分类器吗？还是非线性分类器？为什么？

答：
是的！
下面的绿色的线就是决策边界

基于下面公式：

\[P(y=1|x,w) = \frac{1}{1+e^{-(W^{T}x+b)}} \]

\[P(y=0|x,w) = \frac{e^{-(W^{T}x+b)}}{1+e^{-(W^{T}x+b)}} \]

假设落在决策边界上的点，落在两边的概率是等同的
即：

\[\frac{P(y=1|x,w)}{P(y=0|x,w)} = 1 \]

得出

\[e^{-(W^{T}x+b)}=1 \]

两边加log

\[\log_{}{e^{-(W^{T}x+b)}} =\log_{}{1} \]

得出

\[-(W^{T}x+b)=0 \]

最终

\[W^{T}x+b=0 \]

所以很明显逻辑回归的决策边界是一个线性的！

应用场景

贷款违约（会违约与不会违约）
广告点击（会点击与不会点击）
商品推荐（会购买与不会购买）
情感分析（正面与方面）
疾病诊断（阳性与阴性）
other...

posted @ 2022-01-01 11:51 言非阅读(125) 评论(0) 收藏举报

刷新页面返回顶部

Loading

言非の博客

机器学习、复杂网络

逻辑回归（Logistic Regression）

函数

sigmod函数

原始条件概率

定义目标函数

经典问题

应用场景

公告