lecture4 : Generalized Linear Model and SoftMax regression

前面的逻辑回归和线性回归其实都可以归结为一类更加广泛的模型 : Generalized Linear Model.

首先要了解指数族分布,它们满足如下的形式:

p(y;η)=b(y)exp(ηTT(y)a(η))

在 GLM 中,T(y)=y

指数族分布的一些性质:

  1. MLE at η is concave, which means Negative Log Likelihood is convex
  2. E[y;η]=a(η)η
  3. Var[y;η]=2a(η)η2

GLM 的一些 assumption 和 design choice:

  1. y|x;θ ~ Exp Family(η)
  2. η=θTx,θRn,xRn
  3. Test time: output E[y|x;θ], 即 h(x)=E[y|x;θ]

GLM 的大致思路可以用下图来概括:

输入 x 得到 η, 这确定了一个参数确定的指数族分布,再根据这个分布来进行预测。

线性回归和逻辑回归的 hypothesis 和 cost function 都可以由 GLM 很好地解释,分别采用正态分布和伯努利分布。

逻辑回归采用伯努利分布,可以处理二分类问题,如果待分类类别大于二,就要用到多项分布,相对应的逻辑回归的推广形式 Softmax 回归。

对于多分类问题,此时输出结果不再是一个数值,而是一个向量,第 i 个分量对应于第 i 个类别的概率。

即:

h(x)=[P(y=1|x;θ)P(y=2|x;θ)...P(y=k|x;θ)]=1j=1kexp(θ(j)Tx)[exp(θ(1)Tx)...exp(θ(k)Tx)]

此处第二个等式后面提出来的系数是为了使得概率加起来为 1 的标准化因子。

θ=[θ(1)θ(2)...θ(k)],θ(j)Rn

对于如何求得 θ, 和前面的线性回归和逻辑回归相同,先写出对数似然函数,然后做极大似然估计。

l(θ)=i=1mlog(p(y(i)|x(i);θ))=i=1mlog(l=1kexp(θ(l)Tx)j=1kexp(θ(j)Tx))1{y(i)=l}=i=1ml=1k1{y(i)=l}log(exp(θ(l)Txj=1kexp(θ(j)Tx))J(θ)=l(θ)

最优化可以使用梯度下降或者牛顿法完成。

posted @   今天AC了吗  阅读(36)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
点击右上角即可分享
微信分享提示