倒排索引简单理解
传统的线性查找:是进行全局扫描的,如果关键字在文档的后面那么查找的速度也相对较慢。
倒排索引:记录每个词条出现在哪些文档,及文档中的位置,可以根据词条快速定位到包含这个词条的文档以及出现的位置。
- 文档:索引的每一条数据。
- 词条:原始数据按照算法进行分词。
创建倒排索引的步骤
首先对原始文档数据进行编号(DocID),形成列表,就是一个文档列表
创建倒排索引列表
对文档中数据进行分词,得到词条。对词条进行编号,以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)
当用户输入任意的词条时,首先对用户输入的数据进行分词,得到用户要搜索的所有词条,然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现