Generate...|

园龄:粉丝:关注:

2022-10-27 15:04阅读: 28评论: 0推荐: 0

逻辑回归 Logistic Regression

基本公式

F(x)=P{Xx}=11+e(μx)/γf(x)=F(x)=e(μx)/γγ(1+e(μx/γ))2

F(x) 关于 (μ,12) 对称。

二项逻辑回归(binomial logistic regression model)

P(YXX;ww)=exp(wwTxx)1+exp(wwTxx)=11+exp(wwTxx)

对数几率(log odds)函数 logit(p)=ln(p1p)logit[P(YXX;ww)]=wwTxx

预设

  • 用于二分类问题,Y{0,1}Bernoulli(p),P(yp)=py(1p)1y,令 p=11+exp(wwTxx) 则得到二项逻辑回归;
  • 所有样本 P(Y=yixx=xxi) 独立;

极大化对数似然函数

因为假设 y 服从伯努利分布,选择似然函数

L(YYXX;ww)=yiYY,yi=1P(yi=1xxi,ww)yiYY,yi=0P(yi=0xxi,ww)=P(yi=1xxi,ww)pi, P(yi=0xxi,ww)1pi=yiYY,yi=1piyiYY,yi=0(1pi)=yiYYpiyi(1pi)1yi

其中 XX 为选择的样本;YY 为选择的样本的标签,在这里表示所有样本都被计算。yiY,yi=1 表示选择所有标签为 1 的样本 xxi,反之亦然。pi 为 sigmoid 函数 11+exp(wwTxxi)

取对数再取平均获得对数似然函数 lnL(YYXX;ww)=1Ni[1..N]yilnpi+(1yi)ln(1pi)

wwlnL=1Ni[1..N]xxi(yipi)pi=11+exp(wwTxxi)

概率和似然(Probability vs Likelihood)

假设有一个概率分布函数 P(X;θ)

  • 概率关注点在 X,在参数 θ 固定的情况下出现数据 X 的情况有多大可能。

  • 似然关注点在 θ,选择什么参数 θ 可以使所有样本 X 出现的可能性最大。

梯度下降法

为了最大化似然函数

wwt+1wwt+ηwwlnL(YYXX;ww(t)),其中 η>0 为超参数学习率(learning rate),XX,YY 为选择的样本和对应的标签。

牛顿法

L(ww) 表示 L(YYXX;ww)HHww0 表示 L(ww)ww0 的 Hessian 矩阵。

L(ww)L(ww0)+wwT[L(ww0)](wwww0)+12(wwww0)THHww0(wwww0)wwL(ww)wwL(ww0)+HHww0(wwww0)

wwL(ww(t+1))=0,ww0ww(t)

wwL(ww(t))+HHww(t)(ww(t+1)ww(t))=0ww(t+1)=ww(t)HHww(t)1wwL(ww(t))

得到迭代公式 ww(t+1)ww(t)HHww(t)1wwL(ww(t))

事实上,L 可以改为任意损失函数,则得到任意损失函数的牛顿法。

样本的线性可分性和超平面不收敛的情况

证明:当样本线性可分时,超平面不收敛。

证明方法一:

如果存在超平面 wwTxx=0,使得所有样本都被正确分类,那么令超平面与一个系数 c 相乘不改变此超平面 cwwTxx=0

pi=11+exp(cwwTxx)lnL=iyilnpi+(1yi)ln(1pi)clnL=iyi(wwTxx)wwTxx1+exp(cwwTxx)=i(yi11+exp(cwwTxx))wwTxx=i(yipi)wwTxx

由于所有样本都被正确分类,所以 yi=1wwTxx>0,yi=0wwTxx<0

所以 clnL>0,则增加 c 恒提高似然函数,取最大似然函数则 c。将 cwwT 看作 wwT,则 wwTwwT

证明方法二:

yi=1wwTxxi>0pi>12yi=0wwTxxi<0pi<12wwTxxi(piyi)<0wwηxxi(piyi) 在超平面与 ww 同侧延伸

且以上 |piyi|>12xx 作为样本长度固定,所以不收敛


改善方法

添加 L2 范数改善

lnLλ2||ww||22=iyilnpi+(1yi)ln(1pi)λ2wwTwwww[lnLλ2wwTww]=ixxi(yipi)λwwww(t+1)ww(t)+ηN(ww[lnLλ2wwTww])=(1ηλN)ww(t)+ηN[ixxi(yipi)]

ww 过大时,ηN[ixxi(yipi)] 带来的增益小于 ηλNww(t) 带来的损失。

添加标签平滑(label smoothing)改善,yi{0,1} 改为 yi{σ,1σ},σ(0,1/2)  0

yi{σ,1σ}pi=11+exp(wwTxx)ww(t+1)ww(t)ηxxi(piyi)

ww 过大时,yi=σwwTxx0pi0ww(t),ηxxi(piyi) 在超平面同侧yi=1σ 时也成立。

推广到多项逻辑回归

  • one-vs-rest
  • one-vs-one

总之,对上述每个分类进行学习,可以获得 K={Cone-vs-rest(C2)one-vs-oneww,这些 ww 一起可以获得 K 个二项逻辑回归,选择其中最大的一个类即可,y^=argmaxc{1,,C}P(Y=cxx)

sigmoid function

为了将在数轴上任意的 z 映射到 (0,1) 上,从直觉上构造函数

<z<0<exp(z)<1<1+exp(z)<1>11+exp(z)>00<11+exp(z)<1

因此选择函数 S(z)=11+exp(z) 。之后发现这个函数的导数不错,S(z)=S(z)[1S(z)],在 0 附近较大,而在其他情况较小。

使用标签 y{1,1}

tanh(z)=ezezez+ez=2Sigmoid(2z)1tanh(z)=1tanh2(z)

依旧构造似然函数

pi=tanh(wwTxx)L(YYXX;ww)=yiYY,yi=1P(yi=1xxi,ww)yiYY,yi=1P(yi=0xxi,ww)=P(yi=1xxi,ww)(1+pi)/2, P(yi=1xxi,ww)(1pi)/2=yiYY,yi=11+pi2yiYY,yi=11pi2=yiYY(1+pi2)(yi+1)/2(1pi2)(1yi)/21NlnL(YYXX;ww)=12Ni=[1..N](yi+1)ln(1+pi2)+(1yi)ln(1pi2)ww1NlnL(YYXX;ww)=1Ni=[1..N]xxi(yipi)

出于计算方便

S(z)=S(z)[1S(z)] 所以选择 pi,(1pi)

tanh(z)=[1+tanh(z)][1tanh(z)],所以选择 (1+pi)/2,(1pi)/2

事实上 (1+pi)/2=Sigmoid(2wwTxxi),(1pi)/2=1Sigmoid(2wwTxxi),相当于 yi(yi+1)/2,pi(pi+1)/2,xxi2xxi 所以得出相同的结果。

本文作者:violeshnv

本文链接:https://www.cnblogs.com/violeshnv/p/16832220.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   Violeshnv  阅读(28)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 とおいよびごえ 凋叶棕
  2. 2 かぜのねいろ 凋叶棕
  3. 3 Milky Way Train 流派未階堂
  4. 4 nostalgia 流派未階堂
  5. 5 桜花繚乱 はちみつれもん
  6. 6 胡蝶之夢 はちみつれもん
  7. 7 色は散りゆく はちみつれもん
  8. 8 暮色蒼然 はちみつれもん
  9. 9 追想、桜ノ國 はちみつれもん
  10. 10 意にそぐわぬリターニー 凋叶棕
かぜのねいろ - 凋叶棕
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.