【IT老齐072】全文检索执行原理
全文检索引擎就是对非结构化文本进行解析、搜索的技术
非结构化文本的处理关键在于分词与倒排索引
分词
分词是指将一段文本中有用的词汇提取出来
常见的中文分词算法
- Ngram穷举 n=2
- 语法分析+字典: 按中文动名词分析推测外加分词字典维护
- 爬虫+大数据+AI分析: 根据语义分析 (NLP)、词频、上下文推测筛选
倒排索引
产生分词后便会形成正向索引,倒排索引是反向将分词与文本的对应
多分词复杂情况要通过算分Score决定结果与排序前后,全文检索引擎要根据相似度算法 (TF-IDF和BM25) 进行算分按分数从高到低进行排序
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性