指数族和广义线性模型推导

指数族和广义线性模型推导

线性回归和逻辑回归

在推导指数族相关内容前,先关注最普通的线性回归和逻辑回归。

之前我们默认了损失函数定义为平方误差,即如下损失函数(xi 默认在最后一维补充常数 1 以实现偏差):

L(θ)=12i=1m(y(i)θTx(i))2

其计算结果(预测值)是 y^(i)=θTx(i)

而逻辑回归,我们默认采用 Sigmoid 函数 g(z)=11+ez(0,1),我们的目标是最大化似然函数,并用梯度下降最大化对数似然估计:

L(θ)=i=1m(g(θTx(i)))y(i)(1g(θTx(i)))1y(i)l(θ)=lnL(θ)=i=1my(i)lng(θTx(i))+(1yi)ln(1g(θTx(i)))

逻辑回归的预测值是 y^(i)=round(g(θTx(i)))

接下来通过对指数族以及广义线性模型的分析,指出线性回归和逻辑回归都是其中的特例。

指数族以及经典分布

指数族是一类随机分布,其概率密度为 P(y;η)=b(y)exp(ηTT(y)a(η))。需要指出的是,绝大多数情况(比如以下的三个例子)下,T(y)=y。因此,我们只需要确定在不同分布下,b(y),a(η) 的取值。

伯努利分布

随机变量 y 只取 0,1yB(ϕ)P(y=1)=ϕ,P(y=0)=1ϕ。我们可以统一写作:

P(y;ϕ)=ϕy(1ϕ)1y

接下来整理形式说明伯努利分布属于指数族:

P(y;ϕ)=exp(ylnϕ+(1y)ln(1ϕ))=exp(lnϕ1ϕy+ln(1ϕ))

我们可以取:

b(y)=1,η=lnϕ1ϕ,a(η)=ln(1ϕ)

其中 ϕ=11+eη,a(η)=ln(1+eη)

高斯分布

随机变量 y 取实数,P(y;μ)=12πexp((yμ)22)。同样地整理形式:

P(y;μ)=12πexp(12y2+μy12μ2)=12πey22exp(μy12μ2)

b(y)=12πey22η=μa(η)=12μ2=12η2

泊松分布

随机变量 y 取自然数,P(y;λ)=eλλyy!

P(y;λ)=1y!exp(lnλyλ)

b(y)=1y!η=lnλa(η)=λ=eη

指数族的性质

不加证明地指出:

  • 期望 E(y;η)=ddηa(η)
  • 方差 V(y;η)=d2d2ηa(η)

广义线性模型

根据预测值的类型,我们可以选择分布:

  • 如果是 01 分类,则采用伯努利分布;
  • 如果是连续实数,则采用高斯分布(实际上大多数情况都可以用高斯分布近似处理,尽管无法证明其遵从高斯分布);
  • 如果是正整数,如事件发生次数,则采用泊松分布。

广义线性模型的方法是:无论确定何种指数族分布,总是预测 η=θTx,并且采用最大似然估计来取得最合适的预测。设数据集为 {(x(i),y(i))}i=1m,则似然函数为:

L(θ)=i=1mP(y(i);θTx(i))

而我们的预测值是分布的期望 E(y;η)=ddηa(η),这也是一种比较自然的选择。

回顾线性回归

线性回归针对连续实数,因此关注高斯分布。直接取对数似然函数(将一些与 θ 无关的式子记为常数 C):

lnL(θ)=i=1mC+((y(i)θTx(i))22)2=C12i=1m(yθTx(i))2

最大化上式则需最小化平方误差。也即,平方误差的本质是最大对数似然。

同时,高斯分布的均值为 μ=η=θTx,作为预测值,也不是随意指定的。当然也可以严格地对 a(η) 求导得到 E(y)=μ

回顾逻辑回归

现在我们知道逻辑回归实际上是在做伯努利分布的最大似然估计。那么为什么采用 sigmoid 函数为预测值?按照广义线性回归,返回值为期望,即 ϕ

而根据刚才的推导 ϕ=11+eθTx,也即 sigmoid 函数。

posted @   Lucky_Glass  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
历史上的今天:
2021-02-22 「SOL」屠龙勇士(LOJ)
2021-02-22 「SOL」礼物(BZOJ)
TOP BOTTOM
点击右上角即可分享
微信分享提示