10 2024 档案
摘要:工作中涉及了EM算法,重新学习一下不清晰的概念。偶然发现了国外的教材,不经感叹国外的教材写的是真的好。掰开揉碎了,一行行的讲公式的意思,讲变量的由来。 反观国内的教材,啥也不说,啪啪啪几行公式列下来,标注几个变量,仿佛生怕多说几个字让你学会了。让人懵逼进来懵逼出去。 该文献的标题是:> > > >
阅读全文
摘要:困惑度公式: 困惑度的定义如上。 具体里面这个条件概率概率怎么计算呢? 假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。 由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一
阅读全文
摘要:工作过程中了解了下声音的产生。久违的体验了科普的快乐。 我们的常识是声音是空气振动产生的。这里来具体探究一下。 我们所处在一个被空气包围的世界中。 如果空气被一个物体(声源)的运动或振动所干扰,则空气密度将会不断变化。当振动物体向外移,将附近的空气分子推开,并挤压在一起,导致密度和压强略有增加,形成
阅读全文
摘要:为什么需要特征归一化? 消除量纲的影响,加快收敛速率。采用梯度下降的角度来说。特征空间是圆形比椭圆更容易收敛。 采用梯度下降求解的模型,如神经网络,支持向量机等需要特征归一化。树模型一般不需要。 原始特征下,因尺度差异,其损失函数的等高线图可能是椭圆形,梯度方向垂直于等高线,下降会走zigzag路线
阅读全文
摘要:题目:移除元素: 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并原地修改输入数组。 元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。 示例 1: 给定 num
阅读全文
摘要:一个简单的二分查找题。CPP代码。二分查找需要注意的地方就是区间的问题。如果是while(left<right)。就代表着区间定义是[left,right),即右边界取不到。因此当right缩小至middle时候只需要: while(left<right){ ... if(nums[middle]<
阅读全文
摘要:概念:三种不同的排序模型学习(Learning to Rank)设计思路。主要体现在损失函数不同 用户 的查询query为 Q,候选文档集docs为 c1~CN,正确的结果排序假设为C1-CK 。候选文档集要一般大于最终返回的集合,因此N>K .例如,给出一个提问句子从候选句子(有10个)中选出最佳
阅读全文
摘要:暴力检索痛点: 1.需要遍历向量 2.占用存储空间大 解决: 对高维embedding进行划分。例如128维度的embedding划分为4个32维的区域。 对每个区域向量进行聚类,假设256类。那么一个128维度的向量就可以量化为一个4维向量,每一维度取值为0-255 检索:对新输入的向量,计算其量
阅读全文