逻辑回归学习笔记

逻辑回归

线性回归不适合处理分类问题，因为用连续型函数逼近离散型函数不太靠谱。因此考虑如何修改线性回归方法使其适用于分类问题。

现在给出\((x_1,y_1),(x_2,y_2)...(x_n,y_n),x_i \in R^k,y_i\in \{0,1\}\)：

对于\(w\in R^k,b\in R,f(x)=w^Tx+b\)，那么怎么把它的值域限制在0和1呢？构造\(g:R\to (0,1)\)，例如\(g(x)=\frac{e^x}{1+e^x}=\frac{1}{1+e^{-x}}\)，复合函数\(h(x)=g(f(x))=\frac{1}{1+e^{-(w^Tx+b)}}\)。

引入概率论

如果把x和y都看作随机变量，那么就有了联合分布以及条件分布的概念。\((x_i,y_i)\)满足联合分布，现在想要学习的就是\(P(y|x)\)以及\(P(x,y)\)。

\[P(y=1|x)=\frac{1}{1+e^{-(w^Tx+b)}}\\ P(y=0|x)=\frac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}} \]

简化记号：\(x=(1,x),w = (b, w)\)。则有：

\[P(y=1|x)=\frac{1}{1+e^{-(w^Tx)}}\\ P(y=0|x)=\frac{e^{-w^Tx}}{1+e^{-(w^Tx)}} \]

对于一个点而言，设其到超平面的距离为\(l\)，则\(l=\frac{w^Tx}{||w||}\)。\(P(y=1|x)\)有三种取值：

\[P(y=1|x)=\left\{\begin{matrix}~1,w^Tx>>0\\ \frac{1}{2},w^Tx=0 \\ ~0,x^Tx<<0 \end{matrix}\right. \]

极大似然估计，设\((x_i,y_i)\)独立同分布，\(P(x_i,y_i)=P(y_i|x_i)P(x_i)=P(y_i=1|x_i)^{y_i}P(y_i=0|x_i)^{1-y_i}P(x_i)\)。注意上面的前两项最终只会取一项。

似然函数可以写为：\(\Pi_{i=1}^nP(x_i,y_i)=\Pi_{i=1}^n[P(y_i=1|x_i)^{y_i}P(y_i=0|x_i)^{1-y_i}]·\Pi_{i=1}^nP(x_i)\)

变成求解\(argmax_w\Pi_{i=1}^n[P(y_i=1|x_i)^{y_i}P(y_i=0|x_i)^{1-y_i}]=argmax_w[\Pi_{y_i=1}\frac{1}{1+e^{-w^Tx_i}}][\Pi_{y_j=0}\frac{e^{-w^Tx_j}}{1+e^{-w^Tx_j}}]\)

取对数可以让乘积变成求和，等价于\(argmax_w\Sigma_{y_i=1}log(\frac{1}{1+e^{-w^Tx_i}})+\Sigma_{y_i=0}log(\frac{e^{-w^Tx_j}}{1+e^{-w^Tx_j}})=argmin_w -\Sigma_{y_i=1}log(\frac{1}{1+e^{-w^Tx_i}})-\Sigma_{y_i=0}log(\frac{e^{-w^Tx_j}}{1+e^{-w^Tx_j}})\)

损失函数：\(l(w)= -\Sigma_{y_i=1}log(\frac{1}{1+e^{-w^Tx_i}})-\Sigma_{y_i=0}log(\frac{e^{-w^Tx_j}}{1+e^{-w^Tx_j}})\)

此时闭形式解是不存在的，只能使用数值解法。

梯度下降

一般来说，\(f:R^k\to R,\nabla f\)

\(x_{n+1}=x_n-\eta \nabla f(x_n)\)

对于若干个点的二分类问题，如果其完全可分，则可以用感知机进行求解，如果不完全可分，则可以用线性规划。现在则可以使用逻辑回归。

如果对于\(w\in R^k,A=\{x_i|y_i(w^Tx_i)<0\},l(w)=|A|\)，去找到\(w\)满足\(l(w)\)最小的话，最终结果可能非常不稳定。

推广

多元分类怎么办？

给出\((x_i,y_i),y_i\in \{0,1,...m-1\}\)

目标：\(w_1,w_2...w_{m-1}\)

\(P(y_i=k|x_i)=\frac{e^{w_k^Tx_i}}{1+\Sigma_{k=1}e^{w_k^Tx_i}},k\neq0\)

\(P(y_i=0|x_i)=\frac{1}{1+\Sigma_{k=1}e^{w_k^Tx_i}}\)

引入非线性

如果是二维空间中线性不可分，则可以尝试进行升维：

\((x_1,x_2)\to (x_1,x_2,x_1^2,x_2^2,x_1x_2)\in R^5\)

注意上面的参数都是线性的。

对于感知机、线性规划、线性回归、逻辑回归都可以引入非线性项。

posted @ 2022-04-06 17:29 脂环阅读(79) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

脂环

逻辑回归学习笔记

逻辑回归

引入概率论

梯度下降

推广

引入非线性

公告