1.指数族分布的标准形式
p(x|η)=h(x)g(η)exp{ηTu(x)}
B站白板推导也有一个指数族分布标准形式,两者是等价的
p(x|η)=h(x)exp{ηTϕ(x)−A(η)}
这里的u(x)=ϕ(x),g(η)=1exp{A(η)}
ηT是一个向量,自然的u(x)=ϕ(x)也是一个向量函数,A(η)是log partition function,加上对数的配分函数和归一化相关
2.正态分布转化为指数族分布的标准形式
PRML书上还展示了一个伯努利分布转为指数族分布的例子,这里介绍正态分布的转化例子,B站白板推导也有这部分
p(x|μ,σ2)=1√2πσ2exp{−12σ2(x−μ)2}
转化为指数族分布形式
η=(η1η2)=(μ−12σ2)
u(x)=ϕ(x)=(xx2)
g(η)=(−2η2)12exp(η212η2)
2.指数族分布的性质
2.1对η进行最大似然估计
指数族分布的标准形式
p(x|η)=h(x)g(η)exp{ηTu(x)}
因为是pdf函数,所有积分=1
∫xp(x|η)=∫xh(x)g(η)exp{ηTu(x)}dx=g(η)∫xh(x)exp{ηTu(x)}dx=1
式子
g(η)∫xh(x)exp{ηTu(x)}dx 对η求导=0 求最大η,中文版这里写错了
∇g(η)∫h(x)exp{ηTμ(x)}dx+g(η)∫h(x)exp{ηTμ(x)}μ(x)dx=0
在代入公式g(η)∫xh(x)exp{ηTu(x)}dx=1
得到−1gη∇g(η)=g(η)∫h(x)exp{ηTμ(x)}μ(x)dx=E[u(x)]
最后有−∇lng(η)=E[u(x)]
也就是说有了充分统计了u(x)的均值就能得到指数族分布参数η的最优解
这是B站的推导

二阶导是方差,方差>0,所有A是个凸函数

上面是最优η的推导,如果给定了一组数据X={x1,x2,...,XN},这时候求η的最优解就是求η的最大似然解,虽然两个结论非常近似,但是推导过程不一样,一个是直接求导,得到的是η和u(x)之间的关系,一个是通过似然函数(所有样本的累乘),再求导,得到最大似然解η
下面是最大似然估计值ηMLE的解析式,注意这里的ηMLE已经是个实实在在存在的一个数了,上面η最优解还是一个变量

B站对最大似然函数的推导

2.2 共轭先验
关于共轭先验的知识本博客其他章节已经详述,这里不再重复了
共轭先验的优点是先验和后验是同一个分布(对于某个统计量而言),通过假设一个和后验一样的先验可以计算方便,但是这个假设有点强
2.3 最大熵的角度看指数族分布
B站的这一章节,第一个视频不详述了,一个简单的结论,熵最大的分布是均匀分布
第二个视频对最大熵模型做了推导
这是最大熵模型对应的优化问题,是一个有约束的优化问题,Δ代表是一个常数,要求最大熵模型的均值和经验分布的均值是一致的


然后解这个最优化问题

最后结论,在最大熵模型下,使得熵最大的分布是指数族分布,刚一看有点惊讶,但其实PRML书中已经有了相关说明,在P43,公式1.109下面
最大化微分熵的分布是高斯分布

3.指数族分布的应用场景
广义线性模型
--线性组合 wTx
--link function这是激活函数的反函数
--指数族分布:y|x∼指数族分布,比如线性回归:噪声y|x∼N,分类y|x∼伯努利分布
概率图模型
--无向图:RBM
变分推断
--如果是指数族分布,可以简化变分推断
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)