机器学习(3)：信息论

1.信息熵

给定概率密度函数\(p(x)\)，定义该函数的信息熵
\(H(p)=H[\mathbf{x}]=-\int{p(\mathbf{x})lnp(\mathbf{x})d\mathbf{x}}\)
信息熵描述了分布的混乱程度。均匀分布是使得信息熵最大的概率分布。单点的冲击响应函数对应的信息熵最小

2.相对熵

给定两个概率密度函数\(p(x)\)和\(q(x)\) ,描述二者之间的差异（距离），定义相对熵

\(KL(p||q)=-\int{p(\mathbf{x})\textbf{ln}q(\mathbf{x})d\mathbf{x}}-(-\int{q(\mathbf{x})\textbf{ln}p(\mathbf{x})d\mathbf{x}}) \\
KL(p||q)=-\int{p(x)ln\left \{ \frac{q(\mathbf{x})}{p(\mathbf{x})} \right \}}\)

对任意概率分布\(KL(p||q)\geqslant 0\)，等号当且仅当 \(p=q\)。

3.互信息

对于两个随机变量\(x,y\) ，定义二者之间的互信息

\(I[x,y]=KL(p(x,y)||p(x)p(y)=-\iint{p(x,y)ln\left ( \frac{p(x)p(y)}{p(x,y)} \right )dxdy}\)

若\(x,y\) 相互独立，则互信息为0，二者相互无关

\(I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]\)

4.交叉熵及深度学习的应用

给定两个概率密度函数\(p(x)\)和\(q(x)\)，定义\(p(x)\) 关于\(q(x)\) 的交叉熵

\(H(p,q)=E_{p}(-lnq)=-\int{p(x) ln q(x) dx}=H(p)+KL(p||q)\)

交叉熵作为logistic、 softmax回归的代价函数，常应用神经网络的输出层。

posted @ 2017-07-01 19:02 horsetail 阅读(464) 评论(0) 编辑收藏举报

刷新页面返回顶部

机器学习(3)：信息论

公告