LLM相关损失函数

信息熵：

信息熵torch代码

event = {'a':2 , 'b':2, 'c':4}      # 信息熵分：1.5
event2 = {'a':1 , 'b':1, 'c':1}     # 信息熵分：1.585
p_e = [ v/sum(event.values()) for v in event.values() ]
en_e = [ item*torch.log2(torch.tensor(item)) for item in p_e ]
print(en_e)
info_entropy = -torch.sum(torch.tensor(en_e))

相对熵：KL散度

KL：衡量两个分布的差异
KL越大：分布差异大 / 拟合损失大 / 模型优化难度大
KL(P||Q)通常不等于KL(Q||P)，概率分布一样，两者才会相等且为0。分别表示用分布 Q 拟合 P
KL（ASR-wenet端到端识别中）：模型生成分布为（T,D,P）真实标签(T,D,1/n)

1维tensor计算

import torch.nn.functional as F
x = torch.tensor([0.5, 0.5])
y = torch.tensor([0.2, 0.8])
logp_x = torch.softmax(x, dim=-1)
p_y = torch.softmax(y, dim=-1)
kl_mean = F.kl_div(logp_x, p_y, reduction='mean')
kl_sum = F.kl_div(logp_x, p_y, reduction='sum')
kl_default = F.kl_div(logp_x, p_y )

d1 = [0.5, 0.5]
d2 = [0.2, 0.8]
d1 = torch.softmax( torch.tensor(d1), dim=-1 )
d2 = torch.softmax( torch.tensor(d2), dim=-1 )
def kl_self(d1, d2):
    return torch.tensor( [ d2[id]*(torch.log(d2[id])-v) for id, v in enumerate(d1) ] )
kl_self(logp_x, p_y).sum()

KL多维tensor计算（摘自wenet，与手写不一致可能是softmax部分）

d1 = [0.5, 0.5]
d2 = [0.2, 0.8]
kl = torch.nn.KLDivLoss(reduction="none")
kl( torch.tensor(d2) , torch.tensor(d1) )
# 手写
d1 = torch.softmax( torch.tensor(d1), dim=-1 )
d2 = torch.softmax( torch.tensor(d2), dim=-1 )
torch.tensor( [ d2[id]*(torch.log(d2[id])-v) for id, v in enumerate(d1) ] )

交叉熵：

def cross_entropy(t1, t2):
    return -[ t1[id]*torch.log(v) for id, v in enumerate(t2) ].sum()

H(X)表示信息熵

可以坐下类似的下梯度推导工作
https://www.zhihu.com/tardis/zm/art/35709485?source_id=1003

为什么使用交叉熵而不是相对熵
计算简便性
交叉熵的计算公式相对简单,只需要目标值和预测值,而相对熵需要计算两个概率分布之间的距离,计算相对复杂。
监督学习场景
在监督学习中,我们有真实的目标值(标签),希望模型的预测值尽可能接近这个目标值。交叉熵可以很好地衡量预测值与目标值之间的差异,而相对熵主要用于衡量两个概率分布之间的差异。
优化目标
交叉熵的优化目标是最小化预测值与目标值之间的差异,这符合监督学习的目标。而相对熵的优化目标是使模型的概率分布尽可能逼近真实分布,在一些无监督学习场景下更有用。
梯度计算
在训练过程中,需要计算损失函数对模型参数的梯度。交叉熵损失函数的梯度计算相对简单,而相对熵涉及到复杂的对数运算,梯度计算更加复杂。
数值稳定性
相对熵的计算可能会遇到除以0或对数运算的数值不稳定的问题,而交叉熵损失函数通常数值更加稳定。

posted @ 2024-05-22 10:46 365/24/60 阅读(244) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· LLM训练bug

· 手写Conformer网络结构

· torch交叉熵损失

· 交叉熵理解

· 机器学习中的交叉熵

阅读排行：
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了！
· PPT革命！DeepSeek+Kimi=N小时工作5分钟完成？
· What？废柴，还在本地部署DeepSeek吗？Are you kidding？
· DeepSeek企业级部署实战指南：从服务器选型到Dify私有化落地
· 程序员转型AI：行业分析

历史上的今天：
2021-05-22 Python/JS 创建二维数组问题

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

365/24/60

LLM相关损失函数

信息熵：

相对熵：KL散度

最新随笔

我的标签

积分与排名

随笔分类

随笔档案

文章分类

文章档案

阅读排行榜