摘要:
分片的原因 由于底层Lucene的限制,每个solr索引中包含的文档数不能超过231个,大约是21亿个。但是solr分片一般不是基于这个的原因,因为一般没有到这个峰值的之后,solr的各中性能问题就暴露出来了。分片一般是为了提高性能,提高吞吐量。 复制策略 solr的复制策略和大部分的NOSQL数据库的复制策略不同,不是通过事务日志进行同步的,而是每次写操作都有leader节点分发到每个repli... 阅读全文
2017年9月2日
2017年8月30日
摘要:
原文地址:http://www.cnblogs.com/chowmin/articles/4629220.html 搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsea... 阅读全文
摘要:
原文地址:http://blog.csdn.net/bingduanlbd/article/details/52199347 分面搜索(Faceting)基于索引词项对搜索结果进行分类,同时返回每个分类对应的文档数。用户可以可以分类缩小结果范围。下图是一个结果汇总的例子: Amazon的搜索也提供了非常优秀的分面及相应的过滤: 环境 Solr的发行版自带了一些很好的例... 阅读全文
摘要:
smartcn和ik的对比,来自http://www.cnblogs.com/hadoopdev/p/3465556.html 一、引言: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发... 阅读全文
摘要:
本文收集自网络,部分内容个人编写。收集了一下网页的内容: http://blog.csdn.net/dingzfang/article/details/42804489 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrClo... 阅读全文
2017年8月29日
摘要:
原文地址:http://chenzhou123520.iteye.com/blog/1863407 乐观锁介绍: 乐观锁( Optimistic Locking ) 相对悲观锁而言,乐观锁假设认为数据一般情况下不会造成冲突,所以在数据进行提交更新的时候,才会正式对数据的冲突与否进行检测,如果发现冲突了,则让返回用户错误的信息,让用户决定如何去做。那么我们如何实现乐观锁呢,一般来说有以下... 阅读全文
摘要:
solr使用_version_来做文档的版本控制和修改时加锁(乐观锁) indexed是否索引 只能在索引的列上进行查询 stored是否存储 只能返回存储的列 required 是否必须 multiValued 是否多值 dynamicField 动态字段 uniqueKey主键列 id copyField 各种fieldtype : sortMissingLast:排序的时候... 阅读全文
摘要:
部分来自http://www.jianshu.com/p/8cf609207497 一、总览 solr的配置重要的有三个:solr.xml、solrConfig.xml、schema.xml solr.xml 是整个Solr节点的配置,是定义关于core的管理、collection分片、solr云 和http请求处理,不过目前改动不多,也没仔细研究。 solrConfig.xml:关于core或... 阅读全文
摘要:
如何控制评分 如果设置了sort字段,那么将会按照sort字段的顺序返回结果。 如果没有设置sort字段,那么将会根据相关度打分来排序。也就是说,相关度更高的排在前面。 如何来定制适合自身业务的排序打分规则(boost)呢?经过这段时间的思考与实践,想到了如下三个方法:1、定制Lucene的boost算法,加入自己希望的业务规则;2、使用Solr的edismax实现的方法,通过bf查询配置来影响b... 阅读全文
摘要:
以下来自solr in action。 包含: 词项频次。查询词项出现在当前查询文档中的次数。 反向文档频次。查询词项出现在所有文档总的次数。 此项权重。 标准化因子: 字段规范: 文档权重。 字段权重。 长度归一化。消除长文档的优势。因为长文档的词项频次一般会比较大。 协调因子。避免一个文档中出现某一个词项的次数太多导致总分值太大。目的是让结果中包含更多的是出现所有词项的文档。 具体说明见下文。... 阅读全文