Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/Math-BoldItalic.js

LDA主题模型——贝叶斯分布与其共轭(一)

贝叶斯分布理论是统计推断的重要分支,其核心思想是利用贝叶斯定理,将先验知识与新观测数据结合,从而动态更新对未知参数的认识。这一理论框架以概率为基础,特别适合处理不确定性问题,在统计学及相关领域中具有重要地位。贝叶斯推断的一大优势是其计算上的简化性,尤其是通过共轭分布的应用。例如,在二项分布参数pp的推断中,选择 Beta分布作为先验分布可保证后验分布仍为 Beta分布,这种共轭关系大幅降低了推断的复杂度,为实际应用提供了便利。此外,贝叶斯方法的灵活性和直观性使其能够融入领域专家的知识,同时通过不断加入新数据优化推断结果。贝叶斯方法在机器学习、经济学和医学等领域有着广泛应用。例如,在医学诊断中,贝叶斯方法结合患者历史数据和检查结果,可动态评估疾病风险,提高诊断准确性。

一、贝叶斯分布概述

1.1 贝叶斯定理的基本形式

贝叶斯定理的公式为:

P(θ|D)=P(D|θ)P(θ)P(D)P(θ|D)=P(D|θ)P(θ)P(D)

其中:

  • P(θ|D)P(θ|D) 称为后验分布,表示在观测到数据 DD 后对参数 θθ 的概率分布;
  • P(D|θ)P(D|θ) 称为似然函数,表示在参数 θθ 下,观测数据 DD 出现的可能性;
  • P(θ)P(θ) 称为先验分布,表示对参数 θθ 的先验知识;
  • P(D)P(D)边际似然,起归一化作用,可表示为:

P(D)=P(D|θ)P(θ)dθP(D)=P(D|θ)P(θ)dθ

贝叶斯定理的作用是利用先验分布 P(θ)P(θ) 和数据生成过程的似然函数 P(D|θ)P(D|θ) 来计算更新后的后验分布 P(θ|D)P(θ|D)

1.2 先验分布 P(θ)P(θ)

先验分布是贝叶斯分析的起点,反映在观测到数据之前对参数的主观认识或信念。先验分布可以是:

非信息性先验(Non-informative prior):表示对参数没有先验偏好,例如均匀分布。
信息性先验(Informative prior):基于历史数据或专家经验,例如正态分布、高斯分布等。

常见的先验分布形式包括:

  • Beta分布:Beta分布是定义在 [0,1][0,1] 区间上的连续分布,用于建模概率参数 pp。其概率密度函数为:

P(p|α,β)=Γ(α+β)Γ(α)Γ(β)pα1(1p)β1,p[0,1]P(p|α,β)=Γ(α+β)Γ(α)Γ(β)pα1(1p)β1,p[0,1]

其中:

  • α>0,β>0α>0,β>0 为形状参数;
  • Γ()Γ() 是伽马函数,其定义为 Γ(x)=0tx1etdtΓ(x)=0tx1etdt

Beta分布在贝叶斯推断中常用作二项分布中参数 pp 的先验分布。

  • 正态分布:参数 μμσ2σ2 的先验分布通常假设为正态分布:

P(θ)=12πσ2exp((θμ)22σ2)P(θ)=12πσ2exp((θμ)22σ2)

选择合适的先验分布是贝叶斯分析中的一个关键环节。

  • Gamma分布:Gamma分布是指数分布和泊松分布的推广形式,在参数估计、可靠性分析、排队论和贝叶斯统计中有着重要作用。Gamma分布由两个正参数 αα(形状参数)和 ββ(尺度参数)确定,其概率密度函数(PDF)形式为:

f(x|α,β)=βαxα1eβxΓ(α),x>0,α>0,β>0,f(x|α,β)=βαxα1eβxΓ(α),x>0,α>0,β>0,

其中:

Γ(α)Γ(α) 是 Gamma函数,定义为:

Γ(α)=0tα1etdt.Γ(α)=0tα1etdt.

Gamma函数是阶乘的推广,满足 Γ(n)=(n1)!Γ(n)=(n1)!(当 nn 为正整数时)。
αα 控制分布的形状:当 αα 较小时,分布偏斜明显;当 αα 较大时,分布逐渐接近正态分布。
ββ 控制分布的尺度:ββ 越大,分布越分散,反之则越集中。

1.3 似然函数 P(D|θ)P(D|θ)

似然函数反映了数据在给定参数值下的生成机制,即:

P(D|θ)=ni=1P(xi|θ)P(D|θ)=ni=1P(xi|θ)

其中 xixi 表示观测数据中的第 ii 个样本,nn 为样本数量。

根据不同的概率模型,似然函数的形式会有所不同,例如:

  • 二项分布:如果观测数据符合二项分布,则似然函数为:

P(D|θ)=(nk)θk(1θ)nkP(D|θ)=(nk)θk(1θ)nk

其中 kk 表示成功次数,θθ 表示成功的概率。

  • 正态分布:如果观测数据符合正态分布,则似然函数为:

P(D|θ)=ni=112πσ2exp((xiμ)22σ2)P(D|θ)=ni=112πσ2exp((xiμ)22σ2)

似然函数是后验分布计算的核心输入之一。

1.4 后验分布 P(θ|D)P(θ|D)

后验分布是贝叶斯推断的最终结果,它结合了先验分布和观测数据,更新了对参数 θθ 的认识。根据贝叶斯定理,后验分布的公式为:

P(θ|D)P(D|θ)P(θ)P(θ|D)P(D|θ)P(θ)

这表明后验分布的形状是由似然函数和先验分布的乘积决定的。

1.5 边际似然

边际似然P(D)P(D)是后验分布中的归一化常数,用于保证后验分布积分为 1。公式为:

P(D)=P(D|θ)P(θ)dθP(D)=P(D|θ)P(θ)dθ

边际似然在模型比较中有重要应用,例如贝叶斯因子(Bayes Factor)。

贝叶斯分布理论的优势在于:

  • 直观性:能够将主观知识与客观数据相结合;
  • 动态更新:通过新数据不断更新参数的分布;
  • 灵活性:适用于小样本问题和复杂模型。

然而,贝叶斯方法的计算复杂性较高,尤其是在高维问题中,通常需要借助数值方法(如马尔科夫链蒙特卡罗方法,MCMC)来近似计算后验分布。

二、贝叶斯分布的共轭

在贝叶斯分析中,共轭先验是一个重要概念,指的是先验分布与后验分布具有相同的形式。这种性质大大简化了贝叶斯推断的计算。以下分别详细推导 Beta分布与二项分布的共轭关系 和 Dirichlet分布与多项分布的共轭关系,并给出数学表达。

2.1 Beta分布与二项分布的共轭关系

我们希望通过观测数据 kknn 更新对 pp 的认识,根据贝叶斯定理:

P(p|k,n)P(k|n,p)P(p)P(p|k,n)P(k|n,p)P(p)

其中:

  • P(p|k,n)P(p|k,n) 是后验分布;
  • P(k|n,p)P(k|n,p) 是似然函数,对应二项分布;
  • P(p)P(p) 是先验分布,对应 Beta分布。

P(k|n,p)P(k|n,p)P(p)P(p) 的具体表达式代入:

P(p|k,n)[(nk)pk(1p)nk][Γ(α+β)Γ(α)Γ(β)pα1(1p)β1]P(p|k,n)[(nk)pk(1p)nk][Γ(α+β)Γ(α)Γ(β)pα1(1p)β1]

忽略与 pp 无关的常数项 (nk)(nk)Γ(α+β)Γ(α)Γ(β)Γ(α+β)Γ(α)Γ(β),得到:

P(p|k,n)pk+α1(1p)nk+β1P(p|k,n)pk+α1(1p)nk+β1

这正是 Beta分布的形式,其更新后的参数为:

αposterior=α+k,βposterior=β+nkαposterior=α+k,βposterior=β+nk

因此,Beta分布是二项分布的共轭先验。

2.2 Dirichlet分布与多项分布的共轭关系

多项分布的定义

多项分布是二项分布的推广,描述了在 nn 次试验中,事件 k1,k2,,kKk1,k2,,kK 的发生次数,其中每次试验中 KK 个类别的概率为 θ=(θ1,θ2,,θK),且满足:

Ki=1θi=1,θi[0,1].

多项分布的概率质量函数为:

P(k|n,θ)=n!k1!k2!kK!Ki=1θkii,

其中:

  • k=(k1,k2,,kK) 是每个类别的观测次数;
  • n=Ki=1ki 是试验总次数;
  • θ 是类别的概率分布。

这里的 P(k|n,θ) 就是似然函数,用于表示观测数据的生成概率。

Dirichlet分布的定义

Dirichlet分布是多项分布参数 θ 的共轭先验分布,其概率密度函数为:

P(θ|α)=1B(α)Ki=1θαi1i,θ[0,1]K,Ki=1θi=1

其中:

  • α=(α1,α2,,αK) 是超参数,控制分布的形状;
  • B(α) 是 Beta函数的多维推广,定义为:

B(α)=Ki=1Γ(αi)Γ(Ki=1αi)

Dirichlet分布是 Beta分布在多维空间的扩展,用于建模多项分布参数的先验知识。

Dirichlet分布与多项分布的共轭性

假设观测到的分类数据 k=(k1,k2,,kK),其对应的似然函数为:

P(k|n,θ)=n!k1!k2!kK!Ki=1θkii

先验分布为 Dirichlet分布:

P(θ|α)=1B(α)Ki=1θαi1i

根据贝叶斯定理,后验分布为:

P(θ|k,n)P(k|n,θ)P(θ|α)

将似然函数和先验分布代入,忽略常数项,得到:

P(θ|k,n)Ki=1θkiiKi=1θαi1i=Ki=1θki+αi1i

这正是 Dirichlet分布的形式,其更新后的参数为:

αi,posterior=αi+ki,i=1,2,,K

因此,Dirichlet分布是多项分布的共轭先验。

三、常见共轭先验分布

共轭先验分布指的是,当总体分布与其先验分布具有共轭关系时,后验分布的形式与先验分布保持一致。这种性质使得参数估计在数学上更加简单直观,同时在实际应用中提高了计算效率。下面对表中列出的几种常见共轭分布关系进行详细解释与推导。

总体分布 参数 共轭先验分布
二项分布 成功概率 p Beta 分布 Beta(α,β)
泊松分布 均值 λ Gamma 分布 Γ(α,β)
指数分布 均值的倒数 θ Gamma 分布 Γ(α,β)
正态分布(方差已知) 均值 μ 正态分布 N(μ0,σ2)
正态分布(均值已知) 方差 σ2 Γ 分布

总结

共轭先验分布在贝叶斯推断中具有重要作用,通过保持先验与后验分布形式的一致性,大大简化了参数更新的计算复杂度。在实际应用中,不同分布的共轭关系,如 Beta 分布与二项分布、Gamma 分布与泊松分布等,为统计建模、机器学习和数据分析提供了有效工具。这种方法不仅灵活,而且能够结合先验知识与数据观测,实现对未知参数的动态推断。

Beta分布与二项分布的共轭性:Beta分布通过简单的参数更新α+kβ+nk,生成后验分布。
Dirichlet分布与多项分布的共轭性:Dirichlet分布的超参数 α通过累加观测到的频数k,生成后验分布。
这两种共轭关系的推导,展现了贝叶斯分析在复杂模型推断中的高效性,同时为机器学习、自然语言处理和信号处理等领域提供了理论基础。

参考资料

  1. 理解Gamma分布、Beta分布与Dirichlet分布
  2. 共轭和共轭分布
  3. 主题模型(一):LDA 基本原理
  4. 通俗理解LDA主题模型(2014年版)
posted @   郝hai  阅读(64)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 易语言 —— 开山篇
· 实操Deepseek接入个人知识库
· Trae初体验
点击右上角即可分享
微信分享提示