信息论

熵和自信息

1. 自信息I(x)是变量X=x时的信息量或编码长度

\[I(x) = - \log (p(x))\]

2. 熵是用来衡量一个随机事件的不确定性

3. 熵是一个随机变量的平均编码长度，即自信息的数学期望（均值）。熵越高，则随机变量的信息越多；熵越低，则信息越少。

互信息

1. 互信息是衡量一个变量时，另一个变量不确定性的减少程度。两个离散随机变量X和Y的互信息含义为

\[I(X;Y) = \sum\limits_{x \in \chi } {} \sum\limits_{y \in Y} {p(x,y)} \log \frac{{p(x,y)}}{{p(x)p(y)}}\]

2. 互信息的其中一个性质为

\[\begin{array}{l}
I(X;Y) = H(X) - H(X|Y)\\
I(X;Y) = H(Y) - H(Y|X)
\end{array}\]

3. 如果X和Y相互独立，即X不对Y提供任何信息，反之亦然，因此他们的互信息为0

交叉熵

对应分布为p(x)的随机变量，熵H(p)表示其最优编码长度。交叉熵（Cross Entropy）是按照概率分布q 的最优编码对真实分布为p 的信息进行编码的长度，定义为

\[\begin{array}{l}
H(p,q) = {E_p}[ - \log q(x)]\\
H(p,q) = - \sum\limits_x {p(x)} \log q(x)
\end{array}\]

在给定p的情况下，如果q和p越接近，交叉熵越小；如果q和p越远，交叉熵就越大。

KL散度

也叫相对熵，是用概率分布q来近似p时所造成的信息损失量。KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码，其平均编码长度H(p, q)和p的最优平均编码长度H(p) 之间的差异

\[\begin{array}{l}
{D_{KL}}(p||q) = H(p,q) - H(p)\\
{D_{KL}}(p||q) = \sum\limits_x {p(x)\log \frac{{p(x)}}{{q(x)}}}
\end{array}\]

KL散度可以是衡量两个概率分布之间的距离。KL散度总是非负的，D_KL(p∥q) ≥0。只有当p = q 时，D_KL(p∥q) = 0。如果两个分布越接近，KL散度越小；如果两个分布越远，KL散度就越大。但KL散度并不是一个真正的度量或距离，一是KL散度不满足距离的对称性，二是KL散度不满足距离的三角不等式性质。

JS散度

一种对称的衡量两个分布相似度的度量方式，定义为

\[\begin{array}{l}
{D_{JS}}(p||q) = \frac{1}{2}{D_{KL}}(p||m) + \frac{1}{2}{D_{KL}}(q||m)\\
m = \frac{1}{2}(p + q)
\end{array}\]

JS 散度是KL散度一种改进。但两种散度有存在一个问题，即如果两个分布p, q 个分布没有重叠或者重叠非常少时，KL散度和JS 散度都很难衡量两个分布的距离。

Wasserstein 距离

用于衡量两个分布之间的距离。对于两个分布q₁, q₂，p^th-Wasserstein 距离定义为

\[{W_p}({q_1},{q_2}) = {(\mathop {\inf }\limits_{\gamma (x,y) \in \Gamma ({q_1},{q_2})} {E_{(x,y)\~\gamma (x,y)}}[d{(x,y)^p}])^{\frac{1}{p}}}\]

其中Γ(q₁, q₂) 是边际分布为q₁ 和q₂ 的所有可能的联合分布集合，d(x, y) 为x 和y 的距离，比如ℓ_p 距离等。

如果将两个分布看作是两个土堆，联合分布γ(x, y) 看作是从土堆q1 的位置x 到土堆q2 的位置y 的搬运土的数量，并有

\[\begin{array}{l}
\sum\limits_x {\gamma (x,y) = {q_2}(y)} \\
\sum\limits_y {\gamma (x,y) = {q_1}(x)}
\end{array}\]

q₁ 和q₂ 为γ(x, y) 的两个边际分布。

E_{(x,y)∼γ(x,y)}[d(x, y)^p] 可以理解为在联合分布γ(x, y) 下把形状为q₁ 的土堆搬运到形状为q₂ 的土堆所需的工作量

\[{E_{(x,y)\~\gamma (x,y)}}[d{(x,y)^p} = \sum\limits_{(x,y)} {\gamma (x,y)d{{(x,y)}^p}} \]

其中从土堆q₁ 中的点x 到土堆q₂ 中的点y 的移动土的数量和距离分别为γ(x, y)和d(x, y)^p。因此，Wasserstein 距离可以理解为搬运土堆的最小工作量，也称为推土机距离。

Wasserstein 距离相比KL散度和JS 散度的优势在于：即使两个分布没有重叠或者重叠非常少，Wasserstein 距离仍然能反映两个分布的远近。

posted @ 2019-08-06 16:58 下路派出所阅读(585) 评论(0) 编辑收藏举报

刷新页面返回顶部

下路派出所

信息论

公告