【IT老齐072】全文检索执行原理

【IT老齐072】全文检索执行原理

全文检索引擎就是对非结构化文本进行解析、搜索的技术
非结构化文本的处理关键在于分词与倒排索引

分词

分词是指将一段文本中有用的词汇提取出来

常见的中文分词算法

  • Ngram穷举 n=2
  • 语法分析+字典: 按中文动名词分析推测外加分词字典维护
  • 爬虫+大数据+AI分析: 根据语义分析 (NLP)、词频、上下文推测筛选

倒排索引

产生分词后便会形成正向索引,倒排索引是反向将分词与文本的对应

多分词复杂情况要通过算分Score决定结果与排序前后,全文检索引擎要根据相似度算法 (TF-IDF和BM25) 进行算分按分数从高到低进行排序

posted @   Faetbwac  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
点击右上角即可分享
微信分享提示