最大熵模型

最大熵模型预备知识

信息量：一个事件发生的概率越小，信息量越大，所以信息量应该为概率的减函数，对于相互独立的两个事有p(xy)=p(x)p(y)，对于这两个事件信息量应满足h(xy)=h(x)+h(y)，那么信息量应为对数函数：

对于一个随机变量可以以不同的概率发生，那么通过信息量期望的方式衡量，即信息熵。

信息熵：一条信息(属性、特征)的信息量大小和它的不确定性程度有直接的关系，不确定性越大，信息量越大。以e为底单位为nat。公式为：

每个xi表示一种特征。

H(X)在每个p(xi) = 1/N是最大，N为信息的个数。在概率为1/N时信息是最不确定的，所以H(X)越大，信息熵越不确定。

注意：均匀分布的信息熵：

N点离散均匀分布：

连续均匀分布：

联合熵：两个随机变量的X与Y的联合分布形成的熵称为联合熵，记为H(X, Y)。

条件熵：X给定的条件下，Y的信息熵，即H (Y | X )。公式为：

条件熵等于(X, Y)的联合熵，减去X熵，即：

相对熵：又称互熵、交叉熵、交叉信息、Kullback熵、Kullback-Leibel散度。设p(x), q(x)是X中的两个概率分布，p对q的相对熵可以表示为：

相对熵可以度量两个随机变量的"距离"。

互信息：两个随机变量X，Y的联合分布与独立分布乘积的相对熵，即：

几种熵之间的关系：

最大熵直观理解：在没有任何前提条件的时候，我们猜测骰子每个面出现的概率为1/6；当骰子的重心发生变化时，如果我们已知出现1点的概率为1/3，那么我们会猜测剩下的各面出现的概率为(1-1/3)/5=2/15(在没有任何先验知识的前提下，我们推测为均匀分布)。这个过程实际就是在运用最大熵原理。

最大熵原理指出：对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。

最大熵目标：运用观测到的实验样本如何对实验数据分布做出合理的推断。

最大熵模型是建立一个概率判别模型，该模型的任务是对于给定的 X=x以条件概率分布 P(Y|X=x) 预测 Y的取值。

最大熵：

无条件最大熵：若随机变量退化为定值，熵最小为0，若随机变量为均匀分布，那么熵最大，所以熵满足：

有条件最大熵：最大熵模型

如果用欧式空间的单纯形(simplex)来描述随机变量的话，那么可以将随机变量A，B，C映射到等边三角形的三个顶点上(等边三角形的内部任意一点到三条边的距离之和相等，等于三角形的高)，如(a)所示，这里定义三角形中任意一点到三条边的距离之和为 1，任给一点p，比如P(A) 等于p到边 BC 的距离。图(b)中，P(A)=1, P(B)=P(C)=0。图(c)中，P(A)=P(B)=P(C)=1/3。