【IT老齐072】全文检索执行原理
【IT老齐072】全文检索执行原理
全文检索引擎就是对非结构化文本进行解析、搜索的技术
非结构化文本的处理关键在于分词与倒排索引
分词
分词是指将一段文本中有用的词汇提取出来
常见的中文分词算法
- Ngram穷举 n=2
- 语法分析+字典: 按中文动名词分析推测外加分词字典维护
- 爬虫+大数据+AI分析: 根据语义分析 (NLP)、词频、上下文推测筛选
倒排索引
产生分词后便会形成正向索引,倒排索引是反向将分词与文本的对应
多分词复杂情况要通过算分Score决定结果与排序前后,全文检索引擎要根据相似度算法 (TF-IDF和BM25) 进行算分按分数从高到低进行排序
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步