Lucene和Solr和Elasticsearch部分

Lucene和Solr和Elasticsearch部分
（1）Lucene和Solr和Elasticsearch
Lucene是Apache下的一个子项目，是一个开放源代码的全文搜索引擎工具包，但它不是一个完整的全文搜索引擎，而是一个全文搜索引擎的架构，提供了完整的查询引擎
和索引引擎，部分文本分析引擎。官网地址:http://lucene.apache.org/
Solr是一个高性能，采用java5开发，基于lucene的全文搜索服务器，同时对其进行了扩展，提供了比lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询
性能进行了优化，并且提供了一个功能完善的功能管理界面，是一款非常优秀的全文搜索引擎。官网地址：http://lucene.apache.org/Solr/
Elasticsearch跟Solr一样，也是基于Lucene的搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎，基于Restful web接口。官网地址：https://www.elastic.co/products/elasticsearch
（2）三者各自的优缺点？
1.Elasticsearch
优点：分布式的，不需要其他组件，分发是实时的，被叫做“push replication”
完全支持Apcahe Lucene的接近实时的搜索
处理多租户不需要特殊配置，而Solr需要更多的高级设置
采用getway的概念，使得备份更加简单
各节点组成对等的网络结构，某些节点出现故障时会自动分配到其他节点代替其进行工作
缺点：只有一名开发者
还不够自动
2.Solr
优点：有一个更大、更成熟的用户、开发和贡献者社区
支持多种格式的索引，如HTML、PDF、微软Office系列软件格式以及JSON、XML、CSV等纯文本格式
比较成熟、稳定
不考虑建索引的同时进行搜索，速度更快
缺点：建立索引时，搜索效率下降，实时搜索效率不高
（3）Elasticsearch和Solr的比较
1.二者安装都比较简单
2.Solr利用Zookeeper进行分布式管理，而Elasticsearch自身带有分布式协调管理功能
3.Solr支持更多格式的数据，而Elasticsearch仅仅支持JSON文件格式
4.Solr官方提供的功能更多，而Elasticsearch本身更注重于核心功能，高级功能多由第三方插件进行提供
5.Solr是传统搜索应用的有利解决方案，而Elasticsearch更适用于新兴的实时搜索应用
（4）Solr如何实现搜索的？
倒序索引，先抽取文档中词，并建立词与文档id的映射关系，然后查询的时候会根据词去查询文档id,并查询出文档
（5）Solr过滤器
Solr的过滤器对接收到的标记流（TokenStream）,做额外的处理。过滤查询，在查询时设置
（6）Solr原理
Solr是基于Lucene开发的全文搜索服务器，而Lucene就是一套实现了全文所有的API,其本质就是一个全文搜索的过程。全文搜索就是把原始文档根据一定的规则拆分成
若干个关键字，然后根据关键字创建索引，当查询时先查询索引找到对应的关键词，并根据关键词找到对应的文档，也就是查询结果，最终把查询结果展示给用户的过程
（7）Solr怎么设置搜索结果排名靠前
设置文档中域的boost值，值越高相关性越高，排名就靠前
（8）IK分词器原理
本质上是词典分词，在内存中初始化一个词典，然后在分词过程中逐个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程
（9）Solr的索引查询为什么比数据库要快？
Solr使用的Lucene API实现的全文搜索。全文搜索本质上是查询的索引。而数据库中并不是所有字段都建立了索引，更何况如果使用like查询时很大可能是不适用索引，所以
Solr查询比数据库快
（10）Solr索引库个别数据索引丢失怎么办？
首先Solr是不会丢失个别数据的，如果索引库中缺少数据，那就向索引库中进行添加
（11）多张表的数据导入Solr(解决id冲突)
在schema.xml中添加uuid,然后Solrconfig那边修改update的部分，改为使用uuid生成
（12）Solr如何分词，新增词和禁用词如何解决？
schema.xml文件中配置一个IK分词器，然后域指定分词器为IK
新增词添加到字典配置文件中ext.dic,禁用词添加到禁用词字典配置文件中stopword.dic,然后在schema.xml文件中配置禁用词典：<filter class="Solr.StopFilterFactory" ignore="true"
words="/禁用词文件目录"/>
（13）Solr多条件组合查询
创建多个查询对象，指定他们的组合关系，Occur.MUST(必须满足and),Occur.SHOULD(因该满足or),Occur.MUST.NOT(必须不满足not)
（14）面试重点，谈谈对Elasticsearch了解多少，谈谈公司的es的集群架构，索引数据大小，分片有多少，以及一些调优手段。Elasticsearch的倒排索引是什么？
Elasticsearch简称es是一个分布式、Restful的搜索及分析服务器，涉及用于分布式计算；能够达到实时搜索，稳定、可靠、快速。和Apache Solr一样它也是基于Lucene的索引服务器，
而Elasticsearch对比Solr的优点在于：
轻量级：安装启动方便，下载文件之后一条命令就可以启动
Schema free:k可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构
多索引文件支持：使用不同的index参数就能创建另一个索引文件，Solr中需要另行配置
分布式：Solr Cloud的配置比较复杂
倒排索引是实现“单词-文档矩阵”的一种具体存储方式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两部分组成：单词词典和倒排文件
（15）Elasticsearch索引数据多了怎么办，如何调优，部署？
使用bulk API
初次索引的时候，把replica设置为0
增大 threadpool.index.queue_size
增大 indices.memory.index_buffer_size
增大 index.translog.flush_threshold_ops
增大 index.translog.sync_interval
增大 index.engine.robin.refresh_interval

posted @ 2020-12-14 17:30 IT特工阅读(153) 评论(0) 收藏举报

刷新页面返回顶部

IT特工

Lucene和Solr和Elasticsearch部分

公告