【IT老齐072】全文检索执行原理

【IT老齐072】全文检索执行原理

全文检索引擎就是对非结构化文本进行解析、搜索的技术
非结构化文本的处理关键在于分词与倒排索引

分词

分词是指将一段文本中有用的词汇提取出来

常见的中文分词算法

Ngram穷举 n=2
语法分析+字典: 按中文动名词分析推测外加分词字典维护
爬虫+大数据+AI分析: 根据语义分析 (NLP)、词频、上下文推测筛选

倒排索引

产生分词后便会形成正向索引，倒排索引是反向将分词与文本的对应

多分词复杂情况要通过算分Score决定结果与排序前后，全文检索引擎要根据相似度算法 (TF-IDF和BM25) 进行算分按分数从高到低进行排序

posted @ 2024-03-26 15:57 Faetbwac 阅读(30) 评论(0) 收藏举报

刷新页面返回顶部