信息与最大熵模型

一、信息的度量和作用

1.1 信息熵

一条信息的信息量与其不确定性有直接关系。当我们需要搞清一件非常不确定性的事,就需要了解大量的信息;相反,当我们对某一件事了解较多时,不需要太多的信息就可以把它搞清楚。从这个角度来看,信息量就是等于不确定性的多少。

当让我们猜测世界杯决赛中1-32号球队谁是冠军时,假设我们每猜测一次,对方告诉我们对或者不对,这样我们根据二分方法,一共需要猜测5次。那么实际中,可能并不需要猜测5次,应为像德国这样的球队得到冠军的可能性比日本这样的队高得多,这道这些信息后,我们可能只需要猜测3、4次就可以猜中。

香农指出,对任意一个随机变量\(X\),它的熵(Entropy)定义为

\[H(X)=-\sum _{x \in X}P(x)logP(x) \]

熵满足不等式

\[0 \leq H(X) \leq log|X| \]

其中\(|X|\)\(X\)取值的个数,当且仅当\(X\)服从均匀分布时等号成立,也就是说,\(X\)服从均匀分布时,熵最大。

1.2 信息的作用

信息是消除不确定性的唯一方法。当我们知道事件信息更多,我们对事件了解程度越高。假定一个事件的不确定性为\(U\),从外部消除这个不确定性的方法是引入信息\(I\),而需要引入的信息量取决于这个不确定性的大小,当\(I<U\)时,可以消除一部分不确定性,也就是新的不确定性为

\[U'=U-I \]

\(I \geq U\) 时,不确定性才能完全消除。需要注意的是,只有引入和当前研究问题相关的信息才可以消除不确定性。下面引入条件熵的概念。

假定\(X,Y\)是两个随机变量,\(X\)是我们需要了解的,现在知道\(X\)的概率分布\(P(X)\),以及\(X,Y\)的联合概率分布\(P(X,Y)\)\(X\)\(Y\)下的条件概率分布\(P(X|Y)\),定义在\(Y\)下的条件熵为

\[H(X|Y)=-\sum_{x \in X, y \in Y}P(x,y)logP(x|y) \]

满足\(H(X) \geq H(X|Y)\),也就是多了\(Y\)的信息后,\(X\)的不确定性下降了。

1.3 互信息

当获取的信息要和研究的事物"有关系"时,这些信息才能帮助我们消除不确定性。在这里将会给出有关系的精确定义,香农在信息论中提出了“互信息”的概念作为两个随机时间的“相关性“的量化度量。假定有两个随机时间\(X\)\(Y\),他们的互信息定义为

\[I(X;Y)=\sum_{x \in X,y \in Y}P(x,y)\;log\frac{P(x,y)}{P(x)P(y)} \]

其实这个互信息就是随机变量\(X\)的不确定性或者说熵\(H(X)\),以及在知道随机事件\(Y\)条件下的不确定性,或者说条件熵\(H(X|Y)\)之间的差异

\[I(X;Y)=H(X)-H(X|Y) \]

1.4 相对熵

相对熵也是信息论中的重要概念。相对熵也被称作交叉熵(Relative Entropy 或者 Kullback-Leibler Dibergence)。相对熵也是来衡量相关性,但是和互信息不同的是,它是用来衡量两个取值为正数的函数的相似性,定义为

\[KL(f(x)||g(x))=\sum_{x \in X}f(x)\; log\frac{f(x)}{g(x)}) \]

需要注意的是

\[KL(f(x)||g(x)) \not = KL(g(x)||f(x)) \]

有时候为了方便,将上面两个式子取平均

\[JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x)) +KL(g(x)||f(x))] \]

对于相对熵,只需要记住以下三条:

  • 对于两个完全相同的函数,他们相对熵为零
  • 相对熵越大,两个函数差异性越大;反之,相对熵差异性越小,两个函数差异性越小。
  • 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异

二、最大熵模型

2.1 最大熵模型的原理

论投资,人们常说不要把所有的鸡蛋放在一个篮子里,这样可以降低风险,这个原理在数学上被称作最大熵模型。说白了就是要保留不确定性,让风险降到最小。

  对于一个6个面的筛子,当我们不知道更多信息时,我们认为在一次投掷中每个面朝上的概率是\(\frac{1}{6}\)。为什么这样认为呢?因为对于这个一无所知的筛子,假定它每一个面朝上概率均等是最安全的做法。从投资的角度来看,这就是风险最小的做法。从信息论角度来看,就是保留了最大的不确定性,也就是熵最大。进一步的,我们知道这颗筛子很特殊,已知四点朝上的概率是\(\frac{1}{3}\),这种情况下,每个点朝上的概率是多少呢?这时候认为除了已知的四点朝上的概率是\(\frac{1}{3}\)外,其余点概率是\(\frac{2}{15}\),这就是说对对已知条件(四点朝上概率为\(\frac{1}{3}\))必须满足,而对其余点一无所知,因而保险的做法是认为他们均等。

  最大熵原理指出,对一个随机事件概率分布进行预测时,我们的预测应当满足全部的已知条件,而对未知情况不做任何主观假设。

posted @ 2017-10-16 11:33  曹孟德  阅读(452)  评论(0编辑  收藏  举报