2024 年 4月 15 日随笔档案 - JadePeng

2024年4月15日

摘要：在处理大规模文本数据时，我们经常会遇到一些挑战，比如如何有效地表示和检索文档，当前主要有两个主要方法，传统的文本BM25检索，以及将文档映射到向量空间的向量检索。 BM25效果是有上限的，但是文本检索在一些场景仍具备较好的鲁棒性和可解释性，因此不可或缺，那么在NN模型一统天下的今天，是否能用NN模型来增强文本检索呢，答案是有的，也就是我们今天要说的sparse 稀疏检索。传统的BM25文本检索其实就是典型的sparse稀疏检索，在BM25检索算法中，向量维度为整个词表，但是其中大部分为0，只有出现的关键词或子词（tokens）有值，其余的值都设为零。这种表示方法不仅节省了存储空间，而且提高了检索效率。阅读全文

posted @ 2024-04-15 14:39 JadePeng 阅读(2175) 评论(1) 推荐(1) 编辑

加琪的技术记事本

新的一年，虎虎生威，

公告