Search Engine - 随笔分类 - lovebeauty

docvalues和Fieldcache

摘要：Fieldcache: docID->document->fieldvalue 无论是聚类排序关联等，首先都需要获得文档中某个字段的值，通过docID去获得整个document，然后再去获得字段值，term转换得到最终值，FieldCache一开始就缓存了所有文档的某个特定域(所有数值类型以及不分词阅读全文

posted @ 2016-09-01 16:00 lovebeauty 阅读(757) 评论(0) 推荐(0) 编辑

切词器记录

摘要：StringReader str =new StringReader("abcdefg"); Tokenizer tokenizer = new NGramTokenizer(Version.LUCENE_48, str, 3, 10); term=abcterm=abcdterm=abcdeter 阅读全文

posted @ 2016-08-16 16:37 lovebeauty 阅读(224) 评论(0) 推荐(0) 编辑

检索

摘要：目前来讲普通检索就这么几种：中文:张三英文:jack数字:430479中英文:沪b中文数字:张123英文数字:a8037 阅读全文

posted @ 2016-08-04 11:55 lovebeauty 阅读(141) 评论(0) 推荐(0) 编辑

solr 主从模式和solrcloud集群模式

摘要：主从模式主节点有单点故障问题：没有主从自动切换，没有failover，主机down掉了的话，整个数据变成只读。并且需要一台机单独做索引，浪费资源，所有数据都需要在这台机器上单独存在一份，索引变化较大的时候同步会占用很大的带宽和资源。配置文件改动：改动了solrconfig.xml最终还是要手动上阅读全文

posted @ 2016-06-24 11:52 lovebeauty 阅读(4749) 评论(0) 推荐(0) 编辑

elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片

摘要：出处:[http://www.cnblogs.com/dennisit/p/4133131.html] ，防楼主删博，故保留一份！ elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器（横向扩展）,Elasticsearch能从更强阅读全文

posted @ 2015-12-22 16:48 lovebeauty 阅读(27862) 评论(1) 推荐(2) 编辑

lucene 索引合并策略

摘要：在索引算法确定的情况下，最为影响Lucene索引速度有三个参数－－IndexWriter中的 MergeFactor, MaxMergeDocs, RAMBufferSizeMB 。这些参数无非是控制内外存交换和索引合并频率，从而达到提高索引速度。当然这些参数的设置也得依照硬件条件灵活设置。 Max 阅读全文

posted @ 2015-12-14 18:32 lovebeauty 阅读(2400) 评论(0) 推荐(0) 编辑

更新

摘要：全量：1.新建索引根目录文件夹 update_user2.新增数据的同时判断索引子文件夹大小再新建索引子文件夹 user_20171101153001 user_20171101153002 user_201711011530033.关闭索引4.备份剪切原根目录 user->user_del5.修改阅读全文

posted @ 2015-11-02 17:42 lovebeauty 阅读(209) 评论(0) 推荐(0) 编辑

lucene 索引参数配置类IndexWriterConfig记录

摘要：xxxxxxxxxxx 阅读全文

posted @ 2014-08-19 10:54 lovebeauty 阅读(384) 评论(0) 推荐(0) 编辑

lucene 专业名词作用整理

摘要：是否切词：对关键词是否切分，举例，姓名域的一个值："张三" , 是否切分成"张"、"三"等等多个term。是否索引：建立索引的时候是否对该字段域对应的数据建立索引。是不是放到倒排表中，此域的关键字与document之间的对应关系存不存在即反向关系存不存在，通过term能不能定位到document 阅读全文

posted @ 2014-08-17 01:19 lovebeauty 阅读(1202) 评论(0) 推荐(1) 编辑

Lucene 对文档打分的规则整理记录

摘要：摘引自：http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.htmlLucene的搜索结果默认按相关度排序，这个相关度排序是基于内部的Score和DocID，Score又基于关键词的内部评分和做索引时的 boost。默认Sc... 阅读全文

posted @ 2014-07-30 11:17 lovebeauty 阅读(4611) 评论(1) 推荐(0) 编辑

lucene 检索流程整理笔记

摘要：BooleanClause.Occur.MUST 表示andBooleanClause.Occur.MUST_NOT 表示notBooleanClause.Occur.SHOULD 表示orQueryParser.AND_OPERATOR == Operator.AND 表示and QueryPar... 阅读全文

posted @ 2014-07-28 12:24 lovebeauty 阅读(245) 评论(0) 推荐(0) 编辑

lucene 索引流程整理笔记

摘要：索引的原文档(Document)。为了方便说明索引创建过程，这里特意用两个文件为例：文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.文件二：My friend Jer... 阅读全文

posted @ 2014-07-25 00:29 lovebeauty 阅读(202) 评论(0) 推荐(0) 编辑

luke 操作记录

摘要：精确查询(不需要切分词)：得使用KeywordAnalyzer而不是StandardAnalyzer，原因如下：StandardAnalyzer：KeywordAnalyzer：阅读全文

posted @ 2014-07-23 10:24 lovebeauty 阅读(190) 评论(0) 推荐(0) 编辑

lucene 基本原理整理

摘要：基本原理：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html所有过程：http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html1.什么... 阅读全文

posted @ 2014-07-16 11:16 lovebeauty 阅读(3202) 评论(0) 推荐(1) 编辑

lucene文件格式待整理

摘要：这是之前Lucene3.0生成的索引格式a表b表、c.这是网上找的图片(因为上面的两张表的segment都是合并了的)lucene4.9 建立的索引：索引(Index)：在Lucene中一个索引是放在一个文件夹中的。如上图，同一文件夹中的所有的文件构成一个Lucene索引。段(Segment... 阅读全文

posted @ 2014-07-10 13:08 lovebeauty 阅读(506) 评论(0) 推荐(0) 编辑

用法规则记录

摘要：英文数字一般不单个切分，中文一般一元、多元、智能切词等切分方式中文模糊：一般本身是有这个term的，所以本身就是去模糊！英文或数字模糊：一般本身是没有这个term的，所以模糊查询是要加*的，加了*本身是属于通佩符查询，后面不能再接OR关键字字段不切分才支持前缀查询阅读全文

posted @ 2013-10-26 13:19 lovebeauty 阅读(178) 评论(0) 推荐(0) 编辑

lovebeauty

随笔分类 - Search Engine

docvalues和Fieldcache

切词器记录

检索

solr 主从模式和solrcloud集群模式

elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片

lucene 索引合并策略

更新

lucene 索引参数配置类IndexWriterConfig记录

lucene 专业名词作用整理

Lucene 对文档打分的规则整理记录

lucene 检索流程整理笔记

lucene 索引流程整理笔记

luke 操作记录

lucene 基本原理整理

lucene文件格式待整理

用法规则记录

导航

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论