KL散度计算

 

KL散度(Kullback-Leibler Divergence)是用来度量两个概率分布相似度的指标,是经典损失函数,应用于PPO等算法参数估计设计。

KL散度的定义

假设对随机变量ξ,存在两个概率分布P和Q。如果ξ为离散变量,则定义从P到Q的KL散度为:

DKL(P||Q)=iP(i)ln(P(i)Q(i))

如果如果ξ为连续变量,则定义从P到Q的KL散度为:

DKL(P||Q)=p(x)ln(p(x)q(x))dx

KL散度的性质(以离散形式为例)

  • 非负性

    DKL(P||Q)0,DKL(P||Q)=0P=Q

  • 仿射变换不变性
    假设y=ax+b,那么:

    DKL(P(x)||Q(x))=DKL(P(y)||Q(y))

  • 非对称性

    DKL(P||Q)DKL(Q||P)

  • 值域
    DKL(P||Q)在一定条件下可以趋向于无穷。

KL散度的应用和常见分布KL散度的计算

详见[link](关于KL散度(Kullback-Leibler Divergence)的笔记 - 捡到一束光的文章 - 知乎
https://zhuanlan.zhihu.com/p/438129018)

参考文章:关于KL散度(Kullback-Leibler Divergence)的笔记 - 捡到一束光的文章 - 知乎
https://zhuanlan.zhihu.com/p/438129018

posted @   霜尘FrostDust  阅读(271)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示