困惑度的计算
困惑度公式:
困惑度的定义如上。
具体里面这个条件概率概率怎么计算呢?
假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。
由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一行本身就表示一个条件概率。因此,假设从这个概率分布中采样了N个字出来。
每个字的条件概率就是该字在矩阵中对应概率。
困惑度公式:
困惑度的定义如上。
具体里面这个条件概率概率怎么计算呢?
假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。
由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一行本身就表示一个条件概率。因此,假设从这个概率分布中采样了N个字出来。
每个字的条件概率就是该字在矩阵中对应概率。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库