前面的逻辑回归和线性回归其实都可以归结为一类更加广泛的模型 : Generalized Linear Model.
首先要了解指数族分布,它们满足如下的形式:
p(y;η)=b(y)exp(ηTT(y)−a(η))
在 GLM 中,T(y)=y
指数族分布的一些性质:
- MLE at η is concave, which means Negative Log Likelihood is convex
- E[y;η]=∂a(η)∂η
- Var[y;η]=∂2a(η)∂η2
GLM 的一些 assumption 和 design choice:
- y|x;θ ~ Exp Family(η)
- η=θTx,θ∈Rn,x∈Rn
- Test time: output E[y|x;θ], 即 h(x)=E[y|x;θ]
GLM 的大致思路可以用下图来概括:

输入 x 得到 η, 这确定了一个参数确定的指数族分布,再根据这个分布来进行预测。
线性回归和逻辑回归的 hypothesis 和 cost function 都可以由 GLM 很好地解释,分别采用正态分布和伯努利分布。
逻辑回归采用伯努利分布,可以处理二分类问题,如果待分类类别大于二,就要用到多项分布,相对应的逻辑回归的推广形式 Softmax 回归。
对于多分类问题,此时输出结果不再是一个数值,而是一个向量,第 i 个分量对应于第 i 个类别的概率。
即:
h(x)=⎡⎢
⎢
⎢
⎢⎣P(y=1|x;θ)P(y=2|x;θ)...P(y=k|x;θ)⎤⎥
⎥
⎥
⎥⎦=1∑kj=1exp(θ(j)Tx)⎡⎢
⎢⎣exp(θ(1)Tx)...exp(θ(k)Tx)⎤⎥
⎥⎦
此处第二个等式后面提出来的系数是为了使得概率加起来为 1 的标准化因子。
θ=[θ(1)θ(2)...θ(k)],θ(j)∈Rn
对于如何求得 θ, 和前面的线性回归和逻辑回归相同,先写出对数似然函数,然后做极大似然估计。
l(θ)=m∑i=1log(p(y(i)|x(i);θ))=m∑i=1log(k∏l=1exp(θ(l)Tx)∑kj=1exp(θ(j)Tx))1{y(i)=l}=m∑i=1k∑l=11{y(i)=l}log(exp(θ(l)Tx∑kj=1exp(θ(j)Tx))J(θ)=−l(θ)
最优化可以使用梯度下降或者牛顿法完成。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义