管理

信息与最大熵模型

一、信息的度量和作用

1.1 信息熵

一条信息的信息量与其不确定性有直接关系。当我们需要搞清一件非常不确定性的事，就需要了解大量的信息;相反，当我们对某一件事了解较多时，不需要太多的信息就可以把它搞清楚。从这个角度来看，信息量就是等于不确定性的多少。

当让我们猜测世界杯决赛中1-32号球队谁是冠军时，假设我们每猜测一次，对方告诉我们对或者不对，这样我们根据二分方法，一共需要猜测5次。那么实际中，可能并不需要猜测5次，应为像德国这样的球队得到冠军的可能性比日本这样的队高得多，这道这些信息后，我们可能只需要猜测3、4次就可以猜中。

香农指出，对任意一个随机变量\(X\)，它的熵（Entropy）定义为

\[H(X)=-\sum _{x \in X}P(x)logP(x) \]

熵满足不等式

\[0 \leq H(X) \leq log|X| \]

其中\(|X|\)是\(X\)取值的个数，当且仅当\(X\)服从均匀分布时等号成立，也就是说，\(X\)服从均匀分布时，熵最大。

1.2 信息的作用

信息是消除不确定性的唯一方法。当我们知道事件信息更多，我们对事件了解程度越高。假定一个事件的不确定性为\(U\),从外部消除这个不确定性的方法是引入信息\(I\),而需要引入的信息量取决于这个不确定性的大小，当\(I<U\)时，可以消除一部分不确定性，也就是新的不确定性为

\[U'=U-I \]

当\(I \geq U\) 时，不确定性才能完全消除。需要注意的是，只有引入和当前研究问题相关的信息才可以消除不确定性。下面引入条件熵的概念。

假定\(X,Y\)是两个随机变量，\(X\)是我们需要了解的，现在知道\(X\)的概率分布\(P(X)\)，以及\(X,Y\)的联合概率分布\(P(X,Y)\)和\(X\)在\(Y\)下的条件概率分布\(P(X|Y)\),定义在\(Y\)下的条件熵为

\[H(X|Y)=-\sum_{x \in X, y \in Y}P(x,y)logP(x|y) \]

满足\(H(X) \geq H(X|Y)\),也就是多了\(Y\)的信息后，\(X\)的不确定性下降了。

1.3 互信息

当获取的信息要和研究的事物"有关系"时，这些信息才能帮助我们消除不确定性。在这里将会给出有关系的精确定义，香农在信息论中提出了“互信息”的概念作为两个随机时间的“相关性“的量化度量。假定有两个随机时间\(X\)和\(Y\),他们的互信息定义为

\[I(X;Y)=\sum_{x \in X,y \in Y}P(x,y)\;log\frac{P(x,y)}{P(x)P(y)} \]

其实这个互信息就是随机变量\(X\)的不确定性或者说熵\(H(X)\),以及在知道随机事件\(Y\)条件下的不确定性，或者说条件熵\(H(X|Y)\)之间的差异

\[I(X;Y)=H(X)-H(X|Y) \]

1.4 相对熵

相对熵也是信息论中的重要概念。相对熵也被称作交叉熵（Relative Entropy 或者 Kullback-Leibler Dibergence）。相对熵也是来衡量相关性，但是和互信息不同的是，它是用来衡量两个取值为正数的函数的相似性，定义为

\[KL(f(x)||g(x))=\sum_{x \in X}f(x)\; log\frac{f(x)}{g(x)}) \]

需要注意的是

\[KL(f(x)||g(x)) \not = KL(g(x)||f(x)) \]

有时候为了方便，将上面两个式子取平均

\[JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x)) +KL(g(x)||f(x))] \]

对于相对熵，只需要记住以下三条：

对于两个完全相同的函数，他们相对熵为零
相对熵越大，两个函数差异性越大;反之，相对熵差异性越小，两个函数差异性越小。
对于概率分布或者概率密度函数，如果取值均大于零，相对熵可以度量两个随机分布的差异

二、最大熵模型

2.1 最大熵模型的原理

论投资，人们常说不要把所有的鸡蛋放在一个篮子里，这样可以降低风险，这个原理在数学上被称作最大熵模型。说白了就是要保留不确定性，让风险降到最小。

对于一个6个面的筛子，当我们不知道更多信息时，我们认为在一次投掷中每个面朝上的概率是\(\frac{1}{6}\)。为什么这样认为呢？因为对于这个一无所知的筛子，假定它每一个面朝上概率均等是最安全的做法。从投资的角度来看，这就是风险最小的做法。从信息论角度来看，就是保留了最大的不确定性，也就是熵最大。进一步的，我们知道这颗筛子很特殊，已知四点朝上的概率是\(\frac{1}{3}\),这种情况下，每个点朝上的概率是多少呢？这时候认为除了已知的四点朝上的概率是\(\frac{1}{3}\)外，其余点概率是\(\frac{2}{15}\),这就是说对对已知条件（四点朝上概率为\(\frac{1}{3}\)）必须满足，而对其余点一无所知，因而保险的做法是认为他们均等。

最大熵原理指出，对一个随机事件概率分布进行预测时，我们的预测应当满足全部的已知条件，而对未知情况不做任何主观假设。

posted @ 2017-10-16 11:33 曹孟德阅读(452) 评论(0) 编辑收藏举报

刷新页面返回顶部

曹孟德