Elasticsearch核心概念
什么是搜索引擎?
- 全文搜索引擎
- 自然语言处理(NLP)、爬虫、网页处理、大数据处理 如谷歌、百度、搜狗、必应等等
垂直搜索引擎
- 有明确搜索目的的搜索行为
- 各大电商网站、OA、站内搜索、视频网站等
搜索引擎应该具备哪些要求?
面向海量数据,如何达到“搜索引擎”级别的查询效率?
数据库的组成结构
MySQL的索引结构
MySQL索引能解决大数据检索的问题吗?
1、索引往往字段很长,如果使用B+trees,树可能很深,IO很可怕
2、索引可能会失效
3、精准度差
Lucene简介
- Lucene是一个成熟的全文检索库,由Java语言编写,具有高性能、可伸缩的特点,并且开源、免费。
- Lucene的作者Doug Cutting是资深的的全文检索专家,Lucene最开始发布在他本人的主页上,2001年10月贡献给Apache,成为Apache基金会的一个子项目。
- Lucene是一个IR库(Information Retrieval library)。后来才由Shay Banon在其基础上开发了Elasticsearch
全文检索
全文检索:索引系统通过扫描文章中的每一个词,对其创建索引,指明在文章中出现的次数和位置,当用户查询时,索引系统过就会根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式
倒排索引的原理
倒排索引的数据结构
倒排索引核心算法
倒排索引的的压缩算法
3-2~3-3 FOR和RBM压缩算法
Trie以及FST原理
FST在Lucene的构建过程
tip和tim的文件内部结构
FST在Lucene的实现原理
本文来自博客园,作者:孙龙-程序员,转载请注明原文链接:https://www.cnblogs.com/sunlong88/p/17399618.html
分类:
elasticsearch
标签:
elasticsearch
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能