为什么交叉熵和KL散度在作为损失函数时是近似相等的

在本文中，我们将介绍熵、交叉熵和 Kullback-Leibler Divergence [2] 的概念，并了解如何将它们近似为相等。

尽管最初的建议使用 KL 散度，但在构建生成对抗网络 [1] 时，在损失函数中使用交叉熵是一种常见的做法。这常常给该领域的新手造成混乱。当我们有多个概率分布并且我们想比较它们之间的关系时，熵和 KL 散度的概念就会发挥作用。

在这里我们将要验证为什么最小化交叉熵而不是使用 KL 散度会得到相同的输出。所以我们首先从正态分布中抽取两个概率分布 p 和 q。如图 1 所示，两种分布都不同，但是它们共享一个事实，即两者都是从正态分布中采样的。