随笔分类 -  Search Engine

Lucene4.x、solrcloud、elasticsearch
docvalues和Fieldcache
摘要:Fieldcache: docID->document->fieldvalue 无论是聚类排序关联等,首先都需要获得文档中某个字段的值,通过docID去获得整个document,然后再去获得字段值,term转换得到最终值,FieldCache一开始就缓存了所有文档的某个特定域(所有数值类型以及不分词 阅读全文

posted @ 2016-09-01 16:00 lovebeauty 阅读(757) 评论(0) 推荐(0) 编辑

切词器记录
摘要:StringReader str =new StringReader("abcdefg"); Tokenizer tokenizer = new NGramTokenizer(Version.LUCENE_48, str, 3, 10); term=abcterm=abcdterm=abcdeter 阅读全文

posted @ 2016-08-16 16:37 lovebeauty 阅读(224) 评论(0) 推荐(0) 编辑

检索
摘要:目前来讲普通检索就这么几种: 中文:张三英文:jack数字:430479中英文:沪b中文数字:张123英文数字:a8037 阅读全文

posted @ 2016-08-04 11:55 lovebeauty 阅读(141) 评论(0) 推荐(0) 编辑

solr 主从模式和solrcloud集群模式
摘要:主从模式 主节点有单点故障问题:没有主从自动切换,没有failover,主机down掉了的话,整个数据变成只读。并且需要一台机单独做索引,浪费资源,所有数据都需要在这台机器上单独存在一份,索引变化较大的时候同步会占用很大的带宽和资源。 配置文件改动:改动了solrconfig.xml最终还是要手动上 阅读全文

posted @ 2016-06-24 11:52 lovebeauty 阅读(4747) 评论(0) 推荐(0) 编辑

elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片
摘要:出处:[http://www.cnblogs.com/dennisit/p/4133131.html] ,防楼主删博,故保留一份! elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器(横向扩展),Elasticsearch能从更强 阅读全文

posted @ 2015-12-22 16:48 lovebeauty 阅读(27858) 评论(1) 推荐(2) 编辑

lucene 索引合并策略
摘要:在索引算法确定的情况下,最为影响Lucene索引速度有三个参数--IndexWriter中的 MergeFactor, MaxMergeDocs, RAMBufferSizeMB 。这些参数无非是控制内外存交换和索引合并频率,从而达到提高索引速度。当然这些参数的设置也得依照硬件条件灵活设置。 Max 阅读全文

posted @ 2015-12-14 18:32 lovebeauty 阅读(2399) 评论(0) 推荐(0) 编辑

更新
摘要:全量:1.新建索引根目录文件夹 update_user2.新增数据的同时判断索引子文件夹大小再新建索引子文件夹 user_20171101153001 user_20171101153002 user_201711011530033.关闭索引4.备份剪切原根目录 user->user_del5.修改 阅读全文

posted @ 2015-11-02 17:42 lovebeauty 阅读(209) 评论(0) 推荐(0) 编辑

lucene 索引参数配置类IndexWriterConfig记录
摘要:xxxxxxxxxxx 阅读全文

posted @ 2014-08-19 10:54 lovebeauty 阅读(384) 评论(0) 推荐(0) 编辑

lucene 专业名词作用整理
摘要:是否切词:对关键词是否切分,举例,姓名域的一个值:"张三" , 是否切分成"张"、"三"等等多个term。 是否索引:建立索引的时候是否对该字段域对应的数据建立索引。是不是放到倒排表中,此域的关键字与document之间的对应关系存不存在即反向关系存不存在,通过term能不能定位到document 阅读全文

posted @ 2014-08-17 01:19 lovebeauty 阅读(1202) 评论(0) 推荐(1) 编辑

Lucene 对文档打分的规则整理记录
摘要:摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.htmlLucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的 boost。默认Sc... 阅读全文

posted @ 2014-07-30 11:17 lovebeauty 阅读(4609) 评论(1) 推荐(0) 编辑

lucene 检索流程整理笔记
摘要:BooleanClause.Occur.MUST 表示andBooleanClause.Occur.MUST_NOT 表示notBooleanClause.Occur.SHOULD 表示orQueryParser.AND_OPERATOR == Operator.AND 表示and QueryPar... 阅读全文

posted @ 2014-07-28 12:24 lovebeauty 阅读(245) 评论(0) 推荐(0) 编辑

lucene 索引流程整理笔记
摘要:索引的原文档(Document)。为了方便说明索引创建过程,这里特意用两个文件为例:文件一:Students should be allowed to go out with their friends, but not allowed to drink beer.文件二:My friend Jer... 阅读全文

posted @ 2014-07-25 00:29 lovebeauty 阅读(202) 评论(0) 推荐(0) 编辑

luke 操作记录
摘要:精确查询(不需要切分词):得使用KeywordAnalyzer而不是StandardAnalyzer,原因如下:StandardAnalyzer:KeywordAnalyzer: 阅读全文

posted @ 2014-07-23 10:24 lovebeauty 阅读(190) 评论(0) 推荐(0) 编辑

lucene 基本原理整理
摘要:基本原理:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html所有过程:http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html1.什么... 阅读全文

posted @ 2014-07-16 11:16 lovebeauty 阅读(3201) 评论(0) 推荐(1) 编辑

lucene文件格式待整理
摘要:这是之前Lucene3.0生成的索引格式a表b表、c.这是网上找的图片(因为上面的两张表的segment都是合并了的)lucene4.9 建立的索引: 索引(Index): 在Lucene中一个索引是放在一个文件夹中的。 如上图,同一文件夹中的所有的文件构成一个Lucene索引。 段(Segment... 阅读全文

posted @ 2014-07-10 13:08 lovebeauty 阅读(506) 评论(0) 推荐(0) 编辑

用法规则记录
摘要:英文数字一般不单个切分,中文一般一元、多元、智能切词等切分方式中文模糊:一般本身是有这个term的,所以本身就是去模糊!英文或数字模糊:一般本身是没有这个term的,所以模糊查询是要加*的,加了*本身是属于通佩符查询,后面不能再接OR关键字字段不切分才支持前缀查询 阅读全文

posted @ 2013-10-26 13:19 lovebeauty 阅读(178) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示