交叉熵与KL 散度(相对熵)
目前分类损失函数为何多用交叉熵,而不是 KL 散度。
首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL 散度是最合适的。但在实际中,某一事件的标签是已知不变的(例如我们设置猫的 label 为 1,那么所有关于猫的样本都要标记为 1),即目标分布的熵为常数。而根据下面 KL 公式可以看到,KL 散度 - 目标分布熵 = 交叉熵(这里的“-”表示裁剪)。所以我们不用计算 KL 散度,只需要计算交叉熵就可以得到模型分布与目标分布的损失值。
从上面介绍,知道了模型分布与目标分布差异可用交叉熵代替 KL 散度的条件是目标分布为常数。如果目标分布是有变化的(如同为猫的样本,不同的样本,其值也会有差异),那么就不能使用交叉熵,例如蒸馏模型的损失函数就是 KL 散度,因为蒸馏模型的目标分布也是一个模型,该模型针对同类别的不同样本,会给出不同的预测值(如两张猫的图片 a 和 b,目标模型对 a 预测为猫的值是 0.6,对 b 预测为猫的值是 0.8)。
注:交叉熵和 KL 散度应用方式不同的另一种解释(我更倾向于上面我自己的解释,更具公式解释性):
交叉熵:其用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。这也是为什么在机器学习中的分类算法中,我们总是最小化交叉熵,因为交叉熵越低,就证明由算法所产生的策略最接近最优策略,也间接证明我们算法所算出的非真实分布越接近真实分布。
KL 散度(相对熵):衡量不同策略之间的差异呢,所以我们使用 KL 散度来做模型分布的拟合损失。
本文作者:Uriel-w
本文链接:https://www.cnblogs.com/Uriel-w/p/15765966.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步