日食三餐夜眠六尺

导航

逻辑回归原理总结

概述

  • 什么是逻辑回归,从二分类开始说起
  • 二元逻辑回归模型的拟合
  • 多分类逻辑回归

1. 什么是逻辑回归,从二分类开始说起

回顾线性回归\(y=x^T\beta\),我们知道响应变量\(y\)一般是连续的,但在分类问题中,比如常见的二分类中\(y=0\)\(y=1\)是非连续的。为了依旧能够利用输入特征\(x\)的线性函数来建立分类的后验概率\(P(y=0)\)\(P(y=1)\),可以对线性回归\(x^T\beta\)进行如下变换(sigmoid函数\(f(x)=1/(1+e^{-x})\)

\[g(x)=\frac{1}{1+\exp\{-x^T\beta\}} \]

可以发现,此时\(g(x)\in[0,1]\)。通常取临界值0.5,当\(g(x)>0.5\),即\(x^T\beta>0\)时,\(y=1\);当\(g(x)<0.5\),即\(x^T\beta<0\)时,\(y=0\);当\(g(x)=0.5\),此时逻辑回归无法确定分类。也就是说,当\(x^T\beta\)越大,分为1的概率越大;当\(x^T\beta\)越小,分为0的概率越大;当\(x^T\beta\)越接近0,分类的不确定性越大。

2. 二元逻辑回归模型的拟合

由于二分类问题的响应变量非连续,所以最小二乘方法中的误差平方和损失在这不适用,我们可以采用最大似然进行拟合。假设二分类响应变量为\(y=0\)\(y=1\),且

\[P(y=1|x,\beta)=\frac{1}{1+\exp\{-x^T\beta\}} \]

\[P(y=0|x,\beta)=1-P(y=1|x,\beta)=\frac{\exp\{-x^T\beta\}}{1+\exp\{-x^T\beta\}} \]

合并上述两式

\[P(y|x,\beta)=P(y=1|x,\beta)^{y}[1-P(y=1|x,\beta)]^{1-y},~~y=0,1 \]

对应的\(N\)样本对数似然为

\[l(\beta)=\sum_{i=1}^{N}\log[P(y_i|x_i,\beta)]=\sum_{i=1}^{N}\{y_i\log[P(y=1|x_i,\beta)]+(1-y_i)\log[1-P(y=1|x_i,\beta)]\} \]

\[l(\beta)=-\sum_{i=1}^N[(1-y_i)x_i^T\beta+\log(1+\exp(-x_i^T\beta))] \]

采用梯度上升法求解最优参数,先对上式求导

\[\frac{\partial l(\beta)}{\partial \beta}=\sum_{i=1}^N(y_i-\frac{1}{1+\exp(-x_i^T\beta)})x_i=X^T(Y-g(X)) \]

梯度上升法中每一步向量\(\beta\)的迭代公式如下,其中\(\alpha\)为迭代步长,

\[\beta=\beta+\alpha X^T(Y-g(X)) \]

3.多分类逻辑回归

构建逻辑回归模型意在利用输入特征\(X\)的线性函数来建立分类(\(G=1,\cdots,K\))的后验概率,并要求所有类别的后验概率之和为1且都在\([0,1]\)内。该模型的形式为(称之为Logit变换或log-odds),总共\(K-1\)个方程,

\[\log\frac{P(G=1|X=x)}{P(G=K|X=x)}=x^{T}\beta_1 \]

\[\log\frac{P(G=2|X=x)}{P(G=K|X=x)}=x^{T}\beta_2 \]

\[\vdots \]

\[\log\frac{P(G=K-1|X=x)}{P(G=K|X=x)}=x^{T}\beta_{K-1} \]

整个模型的参数为\(\theta=(\beta_1^T,\cdots,\beta_{K-1}^T)\)。根据\(\sum_{k=1}^{K}P(G=k|X=x)=1\)可以计算出

\[P(G=K|X=x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}} \]

\[P(G=k|X=x)=\frac{\exp\{x^{T}\beta_{k}\}}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}},~~k=1,\cdots,K-1. \]

posted on 2020-05-17 16:55  chenxiaoyuan  阅读(438)  评论(0编辑  收藏  举报