PRML-2.4 指数族分布
1.指数族分布的标准形式
\(p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\}\)
\(B站白板推导也有一个指数族分布标准形式,两者是等价的\)
\(p(x|\eta) = h(x)exp\{\eta^T\phi(x)- A(\eta)\}\)
\(这里的u(x)=\phi(x),g(\eta)=\frac{1}{exp\{A(\eta)\}}\)
\(\eta^T是一个向量,自然的u(x)=\phi(x)也是一个向量函数,A(\eta)是\)log partition function,加上对数的配分函数和归一化相关
2.正态分布转化为指数族分布的标准形式
PRML书上还展示了一个伯努利分布转为指数族分布的例子,这里介绍正态分布的转化例子,B站白板推导也有这部分
\(p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}\)
转化为指数族分布形式
\(\eta=\begin{pmatrix}
\eta_1\\
\eta_2\\
\end{pmatrix} =\begin{pmatrix}
\frac{\mu}\\
{-\frac{1}{2\sigma^2}}\\
\end{pmatrix}\)
\(u(x)=\phi(x)=\begin{pmatrix}
x \\
x^2
\end{pmatrix}\)
\(g(\eta)=(-2\eta_2)^{\frac{1}{2}}exp(\frac{\eta_1^2}{2\eta_2})\)
2.指数族分布的性质
2.1对\(\eta\)进行最大似然估计
指数族分布的标准形式
\(p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\}\)
因为是pdf函数,所有积分=1
\(\int_x p(x|\eta) = \int_x h(x)g(\eta)exp\{\eta^Tu(x)\}dx =g(\eta)\int_x h(x)exp\{\eta^Tu(x)\}dx =1\)
式子
\(g(\eta)\int_x h(x)exp\{\eta^Tu(x)\}dx\) 对\(\eta\)求导=0 求最大\(\eta\),\(\color{red}{中文版这里写错了}\)
\(\nabla g(\eta)\int h(x)exp\{\eta^T\mu(x)\}dx + g(\eta)\int h(x)exp\{\eta^T\mu(x)\} \mu(x) dx=0\)
\(在代入公式 g(\eta)\int_x h(x)exp\{\eta^Tu(x)\}dx =1\)
\(得到-\frac{1}{g{\eta}}\nabla g(\eta) =g(\eta)\int h(x)exp\{\eta^T\mu(x)\} \mu(x) dx =\mathbb{E}[u(x)]\)
\(最后有-\nabla ln g(\eta) =\mathbb{E}[u(x)]\)
\(也就是说有了充分统计了u(x)的均值就能得到指数族分布参数\eta的最优解\)
这是B站的推导
二阶导是方差,方差>0,所有A是个凸函数
\(上面是最优\eta的推导,如果给定了一组数据X=\{x_1,x_2,...,X_N\},这时候求\eta的最优解就是求\eta的最大似然解,虽然两个结论非常近似,但是推导过程不一样,一个是直接求导,得到的是\eta 和 u(x)之间的关系,一个是通过似然函数(所有样本的累乘),再求导,得到最大似然解\eta\)
\(下面是最大似然估计值\eta_{MLE}的解析式,注意这里的\eta_{MLE}已经是个实实在在存在的一个数了,上面\eta最优解还是一个变量\)
B站对最大似然函数的推导
2.2 共轭先验
关于共轭先验的知识本博客其他章节已经详述,这里不再重复了
共轭先验的优点是先验和后验是同一个分布(对于某个统计量而言),通过假设一个和后验一样的先验可以计算方便,但是这个假设有点强
2.3 最大熵的角度看指数族分布
B站的这一章节,第一个视频不详述了,一个简单的结论,熵最大的分布是均匀分布
第二个视频对最大熵模型做了推导
这是最大熵模型对应的优化问题,是一个有约束的优化问题,\(\Delta\)代表是一个常数,要求最大熵模型的均值和经验分布的均值是一致的
然后解这个最优化问题
最后结论,在最大熵模型下,使得熵最大的分布是指数族分布,刚一看有点惊讶,但其实PRML书中已经有了相关说明,在P43,公式1.109下面
最大化微分熵的分布是高斯分布
3.指数族分布的应用场景
广义线性模型
--线性组合 \(w^Tx\)
--link function这是激活函数的反函数
--指数族分布:\(y|x \sim 指数族分布,比如线性回归:噪声 y|x \sim N,分类 y|x \sim 伯努利分布\)
概率图模型
--无向图:RBM
变分推断
--如果是指数族分布,可以简化变分推断