1. 基础知识

1.1 KL散度#

1.1.1 定义#

KL散度（Kullback-Leibler Divergence）是信息论中的一个重要概念，用于衡量两个概率分布之间的差异。它评估分布 $P$ 在多大程度上与分布 $Q$ 不一致。

离散分布下的公式#

$D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$

连续分布下的公式#

$D_{\text{KL}}(P \| Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx$

1.1.2 公式解释#

$P(x)$ ：真实分布或目标分布（数据生成分布）。
$Q(x)$ ：近似分布或模型分布（假设的分布）。
$\log \frac{P(x)}{Q(x)}$ ：对 $Q(x)$ 偏离 $P(x)$ 的“惩罚”。

1.1.3 性质#

非负性：

$D_{\text{KL}}(P \| Q) \geq 0$
且当且仅当 $P(x) = Q(x)$ 对所有 $x$ 成立时取零。
方向性：

$D_{\text{KL}}(P \| Q) \neq D_{\text{KL}}(Q \| P)$

1.1.4 直观理解#

KL散度衡量使用分布 $Q$ 来近似分布 $P$ 所需的额外信息量。例如：

如果 $Q$ 非常接近 $P$ ，额外成本（KL散度）会很小。
如果 $Q$ 与 $P$ 偏差较大，KL散度值会增大。

1.1.5 应用场景#

机器学习：
- 用于最大似然估计，优化模型分布 $Q$ 以最小化 KL散度。
- 变分推断中，衡量变分分布与目标后验分布的差异。
自然语言处理：
- 评估两个文本分布的相似性。
信息论：
- 度量两个信源之间的信息量差异。
概率分布对比：
- 分析实验数据分布 $P$ 和模型预测分布 $Q$ 的差异。

1.1.6 与交叉熵的关系#

KL散度可以通过交叉熵和熵来表达：

$D_{\text{KL}}(P \| Q) = H(P, Q) - H(P)$

其中：

$H(P, Q)$ ：交叉熵。
$H(P)$ ：熵。

1.1.7 KL散度例子#

例子：硬币投掷#

假设我们有两个硬币，硬币 A 和硬币 B，它们的投掷概率分别是：

硬币 A：
- $P(\text{正面}) = 0.8$
- $P(\text{反面}) = 0.2$
硬币 B：
- $Q(\text{正面}) = 0.6$
- $Q(\text{反面}) = 0.4$

我们希望用硬币 B（分布 $Q$ ）来近似硬币 A（分布 $P$ ）。KL散度计算如下：

$D_{\text{KL}}(P \| Q) = P(\text{正面}) \log \frac{P(\text{正面})}{Q(\text{正面})} + P(\text{反面}) \log \frac{P(\text{反面})}{Q(\text{反面})}$

代入数值：

$D_{\text{KL}}(P \| Q) = 0.8 \log \frac{0.8}{0.6} + 0.2 \log \frac{0.2}{0.4}$

计算每一项：

$\log \frac{0.8}{0.6} \approx 0.222$
$\log \frac{0.2}{0.4} \approx -0.301$

因此：

$D_{\text{KL}}(P \| Q) \approx 0.8 \times 0.222 + 0.2 \times (-0.301)$

进一步计算：

$D_{\text{KL}}(P \| Q) \approx 0.1776 - 0.0602 \approx 0.109$

解释#

这个值越小，表示两个分布越接近；而值越大，则表示它们的差异越大。在这个例子中，KL散度表示硬币 B 与硬币 A 之间的差异。

1.2 Bradley-Terry 模型#

1.2.1 模型定义#

Bradley-Terry 模型主要用于评估不同项目之间的相对强度或偏好。这种模型在体育比赛预测、产品推荐系统、社会科学中的偏好排序等多种领域都有广泛应用。

假设我们有一组对象 $O_1, O_2, \ldots, O_n$ ，并且对于任意两个对象 $O_i$ 和 $O_j$ ，我们知道 $O_i$ 对 $O_j$ 获胜的概率。Bradley-Terry 模型的核心假设是每个对象 $O_i$ 都有一个潜在的强度参数 $\lambda_i$ ，这个参数越大，该对象越强。

对于任意两个对象 $O_i$ 和 $O_j$ ， $O_i$ 对 $O_j$ 获胜的概率 $P(i > j)$ 可以表示为：

$P(i > j) = \frac{\lambda_i}{\lambda_i + \lambda_j}$

这意味着，对象 $O_i$ 对 $O_j$ 获胜的概率是 $O_i$ 的强度除以两个对象强度之和。

1.2.2 参数估计#

为了估计参数 $\lambda_i$ ，通常使用极大似然估计（Maximum Likelihood Estimation, MLE）方法。给定一组配对比较结果，目标是最优化似然函数：

$L(\boldsymbol{\lambda}) = \prod_{(i,j) \in \text{pairs}} \left( \frac{\lambda_i}{\lambda_i + \lambda_j} \right)^{x_{ij}} \left( \frac{\lambda_j}{\lambda_i + \lambda_j} \right)^{1-x_{ij}}$

其中：

$x_{ij}$ 是指示变量，如果 $O_i$ 对 $O_j$ 获胜，则 $x_{ij} = 1$ ，否则 $x_{ij} = 0$ 。

1.2.3 模型例子#

例子：小型体育联赛#

假设我们有一个小型的体育联赛，其中有四支队伍：A、B、C 和 D。以下是几场比赛的结果：

A vs B: A 胜
A vs C: C 胜
A vs D: A 胜
B vs C: B 胜
B vs D: B 胜
C vs D: C 胜

建立模型#

我们需要估计每支队伍的强度参数 $\lambda_A, \lambda_B, \lambda_C, \lambda_D$ 。根据 Bradley-Terry 模型，任意两队 $i$ 和 $j$ 之间的胜率 $P(i > j)$ 可以表示为：

$P(i > j) = \frac{\lambda_i}{\lambda_i + \lambda_j}$

为了简化问题，我们通常设定一个参考值，比如 $\lambda_A = 1$ 。这样我们可以将问题转化为估计其他三个参数 $\lambda_B, \lambda_C, \lambda_D$ 。

参数结果#

假设我们对 $\lambda_B, \lambda_C, \lambda_D$ 求导并优化似然函数，最终得到以下参数值：

$\lambda_B \approx 1.5$
$\lambda_C \approx 2.0$
$\lambda_D \approx 1.2$

这意味着队伍 C 的实力最强，其次是 B 和 D，而 A 的实力相对较弱。

胜率估算#

根据这些参数值，我们可以估计每支队伍之间的胜率。例如，队伍 A 对队伍 B 的胜率为：

$P(A > B) = \frac{1}{1 + 1.5} = \frac{1}{2.5} = 0.4$

这意味着 A 对 B 的胜率大约为 40%。

posted @ 2024-11-22 15:05 Bronya_Silverwing 阅读(124) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· BLEU(Bilingual Evaluation Understudy)

· 最小生成树

· KL散度计算

· KL 散度（相对熵）

· 2022-12-05 K-L散度

阅读排行：
· 为DeepSeek添加本地知识库
· 精选4款基于.NET开源、功能强大的通讯调试工具
· DeepSeek智能编程
· 大模型工具KTransformer的安装
· [计算机/硬件/GPU] 显卡

公告

1042天15小时9分42秒

昵称： Bronya_Silverwing
园龄： 2年10个月
粉丝： 2
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

DPO算法

BronyaSilverwing