困惑度的计算

困惑度公式:


困惑度的定义如上。
具体里面这个条件概率概率怎么计算呢?
假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。
由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一行本身就表示一个条件概率。因此,假设从这个概率分布中采样了N个字出来。
每个字的条件概率就是该字在矩阵中对应概率。


posted @   continu~  阅读(44)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
点击右上角即可分享
微信分享提示