LLM-文心一言:BM25、TF-IDF算法

BM25和TF-IDF是两种常用于信息检索和文本挖掘的算法,用于评估一个词在文档中的重要性。下面我会分别介绍这两种算法,并解释它们之间的关系。

TF-IDF(词频-逆文档频率)
TF-IDF是一种统计方法,用于评估一个词对于一个文件集或语料库中的一份文件的重要程度。它由两部分组成:

词频(TF,Term Frequency):某一给定词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长文本(因为不管该词语重要与否,它在长文件中出现的次数很可能比在短文本中出现的次数更大)。
逆文档频率(IDF,Inverse Document Frequency):一个词语普遍重要性的度量。一个词语在文档集合中出现的次数越多,其IDF值就越低;反之,其IDF值就越高。
TF-IDF的基本思想是:如果某个词在一篇文档中出现的频率高,并且在其他文档中很少出现,那么这个词对于这篇文档来说就是很重要的。

BM25
BM25是TF-IDF的一个优化版本,主要用于搜索引擎的查询相关性评分。与TF-IDF相比,BM25在计算词频时引入了饱和度的概念,即当一个词在文档中出现的次数非常多时,其权重的增加会逐渐放缓,以避免某些词因为出现次数过多而主导整个文档的权重。

BM25算法通过引入饱和度和文档长度等因素,使得其在评估词在文档中的重要性时更加准确和有效。

总的来说,BM25算法是在TF-IDF算法的基础上进行了优化和改进,使得其在搜索引擎的查询相关性评分中更加准确和有效。

posted @   快果一只  阅读(161)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示