solr4性能优化实践参考
摘要:Solr的性能在solr4版本之后的得到了极大的提升,在使用过程中,尽量使用新的版本,在实践中总结的一些性能优化参考,不同的业务场景需求,优化的方式会不一样。 在设计field schema的时,需要关注indexed、stored、omitNorms这几个属性的值;indexed对索引的内存使用,
阅读全文
posted @
2023-09-12 20:58
宏宇
阅读(92)
推荐(0) 编辑
如何在solrconfig.xml中改进maxCacheMB和maxMergeSizeMB
摘要:maxMergeSizeMB属性应该是:lucene内部的合并策略(Lucene中的合并因子mergeFactor) 系统参数: maxCacheMB=48.0 maxMergeSizeMB=4.0 我想像下面这样更改maxCacheMB和maxMergeSizeMB: maxCacheMB=64.
阅读全文
posted @
2023-09-12 20:57
宏宇
阅读(23)
推荐(0) 编辑
lucene内部的合并策略
摘要:原文链接:http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene solr(or lucene)内部的合并策略是怎样的呢? 选择哪些段(segment)需要被合并,是基于名为MergePolicy的抽象类
阅读全文
posted @
2023-09-12 14:04
宏宇
阅读(89)
推荐(0) 编辑
Lucene中的合并因子mergeFactor
摘要:mergeFactor 是用来决定segment该如何被addDocument()方法进行合并的。 当mergeFactor取比较小的值时,索引时所使用的内存较少 而且搜素未优化的速度会比较快。因此,mergeFactor取值较大时(比如大于10), 适合于批量的索引建立,而当搜索未优化索引的速度会
阅读全文
posted @
2023-09-12 13:57
宏宇
阅读(29)
推荐(0) 编辑
Solr性能优化
摘要:一、简介 Solr 性能优化是一个很复杂的任务,也是一个长期与之斗争的过程。在开始之前,首先要对影响 Solr 性能的基本因素有个大致的认知。影响 Solr 性能的一个主要因素就是内存。Solr需要有足够的内存用于两个方面:一部分用于 Java 堆内存,一部分用于操作系统的硬盘缓存。另外一个潜在的问
阅读全文
posted @
2023-08-09 12:36
宏宇
阅读(758)
推荐(0) 编辑
solr亿万级索引优化实践
摘要:一 海量数据的索引,第一个要解决的是数据存储的问题,solr提供数据存储平台有两种,第一个是本地磁盘,另一个是HDFS,我们可以通过solrhome的配置来实现。在本次实践中,我们选择的是本地磁盘,因为采用的solrcloud部署模式,本身就是多节点多机器,在存储上不会有问题,还有另一个重要的原因后
阅读全文
posted @
2023-08-09 12:34
宏宇
阅读(239)
推荐(0) 编辑
solr模拟数据库like查询(不使用分词)
摘要:当然可以直接使用基础类型string类型,不过string类型效率低,而且没有什么扩展支持,所以优先考虑TextField类型好一些。 <fieldType name="string" class="solr.StrField" sortMissingLast="true" docValues="t
阅读全文
posted @
2023-06-16 11:24
宏宇
阅读(388)
推荐(0) 编辑
Solr的检索运算符、分析器(Analyzer)、TokenizerFactory(分词器)、TokenFilterFactory(分词过滤器)详解
摘要:Solr有哪些检索运算符? 1. “:” 指定字段查指定值,如返回所有值*:*2. “?” 表示单个任意字符的通配3. “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号)4. “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foam和roams的单
阅读全文
posted @
2021-12-24 01:22
宏宇
阅读(684)
推荐(0) 编辑
SOLR查询匹配关键词的方式
摘要:如果在字段后直接写关键词,solr对条件关键词分词后,各分词之间按照OR的关系进行匹配 如果查询条件关键词用半角双引号括叫起来,则分词间用AND关系进行匹配 尽管使用双引号括起来,分词间可以按照与的关系进行查询,但是有一种情况是,分词后,有些词会被停用词过滤掉,从而只剩下有效词,这样也会造成匹配过多
阅读全文
posted @
2021-12-24 00:56
宏宇
阅读(510)
推荐(0) 编辑
solr英文使用的基本分词器和过滤器配置
摘要:solr英文应用的基本分词器和过滤器配置 英文应用分词器和过滤器一般配置顺序 索引(index): 1:空格 WhitespaceTokenizer 2:过滤词(停用词,如:on、of、a、an等) StopFilter 3:拆字WordDelimiterFilter 4:小写过滤LowerCase
阅读全文
posted @
2021-12-23 20:52
宏宇
阅读(379)
推荐(0) 编辑
solr查询score机制
摘要:首先,solr使用的是默认的评分机制,要搞明白lucene默认评分机制,需要首先了解一下lucene的查询对象。 1、termquery 2、boolean query 3、rangequery 其中最重要的是termquery。是lucene的最基本的原子查询。每个查询最后内部都转化为一个个的原子
阅读全文
posted @
2021-11-24 18:44
宏宇
阅读(639)
推荐(0) 编辑
solr全文检索实现原理
摘要:Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML/Json格式的返回结果。采用Java5开发,基于Lucene。 Luc
阅读全文
posted @
2021-05-26 23:40
宏宇
阅读(347)
推荐(0) 编辑
solr管理界面详解
摘要:solr 服务器管理界面可以查看系统状态、solr设置、分词检测、查询索引、增减core、查看日志等 1.Dashboard(仪表盘) 2.Logging(日志) 3.Core Admin (core管理) 主要有Add Core(添加核心), Unload(卸载核心),Rename(重命名核心),
阅读全文
posted @
2021-04-27 15:32
宏宇
阅读(337)
推荐(0) 编辑
Solr安装与IK Analyzer(中文分词器)
摘要:一、Solr简介 二、solr安装 三、solr基础 四、IK Analyzer(中文分词器) 一、Solr简介 Solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜
阅读全文
posted @
2021-01-25 18:23
宏宇
阅读(370)
推荐(0) 编辑
彻底解决Solr日期类型的时区问题
摘要:彻底解决Solr日期类型的时区问题 声明 文档是基于Solr6.6写的 Solr是部署在Tomcat上的3.Tomcat是部署在CentOS上的,不过Linux、Windows差不多 文章的问题的最终解决是用第四种方式,前三种想看看看,不想看可以直接看第四种方式 本文使用的最终解决方案适用于Solr
阅读全文
posted @
2020-10-18 01:57
宏宇
阅读(743)
推荐(0) 编辑
Solr 多字段、打分规则、权重和实时索引同步
摘要:1、字段 Filed:<field name="_id" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" /> name:字段名 type:字段类型,影响分词结果 indexed:是否需要
阅读全文
posted @
2020-03-30 14:43
宏宇
阅读(882)
推荐(0) 编辑
ElasticSearch(ES)和solr的关系和区别
摘要:可以参考这篇文章:http://www.cnblogs.com/chowmin/articles/4629220.html Solr 2004年诞生(当时是Solar)。 ElasticSearch 2010年诞生。 ES更加新。 下面文字有误,其实是在不断动态添加。 综上所述,Solr的架构不适合
阅读全文
posted @
2020-03-30 13:22
宏宇
阅读(533)
推荐(0) 编辑
solrCloud+tomcat+zookeeper集群配置
摘要:solrcolud安装solrCloud+tomcat+zookeeper部署 转载请出自出处:http://eksliang.iteye.com/blog/2107002 http://eksliang.iteye.com/ 概述: SolrCloud是基于Solr和Zookeeper的分布式搜索
阅读全文
posted @
2020-03-27 11:27
宏宇
阅读(258)
推荐(0) 编辑
solr replication原理探究
摘要:无论是垂直搜索,还是通用搜索引擎,对外提供搜索服务其压力都比较大,经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况,一般的应对方法就是【集群】+【负载均衡】。Solr提供了两种解决方案来对应访问压力。其一是Replication,其一是SolrCloud。 Replication采用
阅读全文
posted @
2020-03-26 11:52
宏宇
阅读(407)
推荐(0) 编辑
SolrCloud6.1.0之SQL查询测试
摘要:Solr发展飞快,现在最新的版本已经6.1.0了,下面来回顾下Solr6.x之后的一些新的特点: (1)并行SQL特性支持,编译成Streaming 表达式,可以在solrcloud集群中,并行执行 (2)SolrCloud的Collection被抽象成关系型数据库表,现在不仅仅可以支持强大的全文检
阅读全文
posted @
2020-03-24 19:19
宏宇
阅读(301)
推荐(0) 编辑