信息论中的几个重要概念
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科[摘自Wikipedia]。信息论中的主要概念包括熵(Entropy)、条件熵(Conditional entropy)、相对熵(KL-Divergence)以及互信息(Mutual information)。
熵(Entropy):在信息论中我们用熵来表示某个事件的不确定性,同时也可以认为熵是弄清一件事情所需要的信息量的度量。比如某同学申请微软亚洲研究院的实习生职位,我们想知道这个学生是否会被hire。我们把该实习生是否被hire这个事件记为X,如果我们对该学生一无所知,那么这个事件的不确定性就很大,换而言之,变量X的熵很大。但是如果我们知道这个同学是MIT的Ph.D,这时我们知道他十有八九会被hire,这个事情的不确定性就小了很多,相应此情况下X变量的熵也小了。
对于离散变量(比如上面的X),当X是均匀分布,即X取每个值的概率相等时,该变量的熵最大。对于上例而言,如果对该同学一无所知的话,他被hire和不被hire的概率都是1/2(假设研究院录取率是50%),这时信息熵最大。如果X分布不均匀,集中分布在某几个值上时信息熵就比较小。
对于连续变量而言,当变量是高斯分布时,信息熵最大。关于此点的详细证明参见《Pattern Recognition and Machine Learning》54页。
条件熵(Conditional entropy):条件熵是指在已知某个变量(Y)的值的情况下想弄清另外一个变量(X)的值所需的信息量。如果我们用Y表示人的身高,X表示人的体重,那么在知道人的身高的情况下了解人的体重所需要的信息量就是在知道Y的情况下X的条件熵(the conditional entropy of X given Y).
相对熵(KL-Divergence):相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零[摘自《数学之美7》]。在模式识别中,这里的函数一般是变量的分布函数。一个是变量的实际分布函数,如P(x)。一个是我们估计的分布函数,如q(x)。KL(P||q)就与函数P(x)和函数q(x)之间的相似度成反比,因此我们可以通过最小化相对熵来使函数q(x)逼近函数p(x), 也就是使我们估计的分布函数接近真实的分布函数。
互信息(Mutual information):对互信息的解释google的朱军老师在数学之美7中讲的比较生动:“互信息”是对两个随机事件相关性的度量。比如说随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。这也就是说下雨这个事件和空气湿度变量之间的的互信息大,而下雨事件和篮球比赛结果这个变量之间的互信息比较小。
初次写技术博客,阐述不清楚的地方请多包涵
相关资料:
1. 《Pattern Recognition and Machine Learning》1.6节,这本书的电子本在网上可以下载到,如果没有搜到你也可以把你的邮箱地址通过留言的方式告诉我,我发给你。
2. 数学之美 系列七 -- 信息论在信息处理中的应用. http://www.googlechinablog.com/2006/05/blog-post_25.html
3. 数学之美系列 4 -- 怎样度量信息? http://googlechinablog.com/2006/04/4.html
4. Wikipedia-information theory http://en.wikipedia.org/wiki/Information_theory
熵(Entropy):在信息论中我们用熵来表示某个事件的不确定性,同时也可以认为熵是弄清一件事情所需要的信息量的度量。比如某同学申请微软亚洲研究院的实习生职位,我们想知道这个学生是否会被hire。我们把该实习生是否被hire这个事件记为X,如果我们对该学生一无所知,那么这个事件的不确定性就很大,换而言之,变量X的熵很大。但是如果我们知道这个同学是MIT的Ph.D,这时我们知道他十有八九会被hire,这个事情的不确定性就小了很多,相应此情况下X变量的熵也小了。
对于离散变量(比如上面的X),当X是均匀分布,即X取每个值的概率相等时,该变量的熵最大。对于上例而言,如果对该同学一无所知的话,他被hire和不被hire的概率都是1/2(假设研究院录取率是50%),这时信息熵最大。如果X分布不均匀,集中分布在某几个值上时信息熵就比较小。
对于连续变量而言,当变量是高斯分布时,信息熵最大。关于此点的详细证明参见《Pattern Recognition and Machine Learning》54页。
条件熵(Conditional entropy):条件熵是指在已知某个变量(Y)的值的情况下想弄清另外一个变量(X)的值所需的信息量。如果我们用Y表示人的身高,X表示人的体重,那么在知道人的身高的情况下了解人的体重所需要的信息量就是在知道Y的情况下X的条件熵(the conditional entropy of X given Y).
相对熵(KL-Divergence):相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零[摘自《数学之美7》]。在模式识别中,这里的函数一般是变量的分布函数。一个是变量的实际分布函数,如P(x)。一个是我们估计的分布函数,如q(x)。KL(P||q)就与函数P(x)和函数q(x)之间的相似度成反比,因此我们可以通过最小化相对熵来使函数q(x)逼近函数p(x), 也就是使我们估计的分布函数接近真实的分布函数。
互信息(Mutual information):对互信息的解释google的朱军老师在数学之美7中讲的比较生动:“互信息”是对两个随机事件相关性的度量。比如说随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。这也就是说下雨这个事件和空气湿度变量之间的的互信息大,而下雨事件和篮球比赛结果这个变量之间的互信息比较小。
初次写技术博客,阐述不清楚的地方请多包涵
相关资料:
1. 《Pattern Recognition and Machine Learning》1.6节,这本书的电子本在网上可以下载到,如果没有搜到你也可以把你的邮箱地址通过留言的方式告诉我,我发给你。
2. 数学之美 系列七 -- 信息论在信息处理中的应用. http://www.googlechinablog.com/2006/05/blog-post_25.html
3. 数学之美系列 4 -- 怎样度量信息? http://googlechinablog.com/2006/04/4.html
4. Wikipedia-information theory http://en.wikipedia.org/wiki/Information_theory