随笔分类 - NLP
摘要:困惑度公式: 困惑度的定义如上。 具体里面这个条件概率概率怎么计算呢? 假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。 由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一
阅读全文
摘要:概念:三种不同的排序模型学习(Learning to Rank)设计思路。主要体现在损失函数不同 用户 的查询query为 Q,候选文档集docs为 c1~CN,正确的结果排序假设为C1-CK 。候选文档集要一般大于最终返回的集合,因此N>K .例如,给出一个提问句子从候选句子(有10个)中选出最佳
阅读全文
摘要:暴力检索痛点: 1.需要遍历向量 2.占用存储空间大 解决: 对高维embedding进行划分。例如128维度的embedding划分为4个32维的区域。 对每个区域向量进行聚类,假设256类。那么一个128维度的向量就可以量化为一个4维向量,每一维度取值为0-255 检索:对新输入的向量,计算其量
阅读全文