随笔分类 - solr
摘要:IK分词算法设计思考加载词典IK分词算法初始化时加载了“敏感词”、“主词典”、“停词”、“量词”,如果这些词语的数量很多,怎么保证加载的时候内存不溢出分词缓冲区在分词缓冲区中进行分词操作,怎么保证分词缓冲区的内容不溢出看源码心得体会Ik分词算法也用到了luceue里面的jar包,多种词语的测试虽然看...
阅读全文
摘要:建立索引过程用户提交数据=》solr建立索引=》调用lucene包建立索引官方建立索引和查询索引的例子如下:http://lucene.apache.org/core/4_10_3/demo/overview-summary.html#About_the_codehttp://lucene.apac...
阅读全文
摘要:参考文章Lucene3.0结果排序原理+操作+示例Lucene的排序算法一句话总结lucene排序算法是什么样的关键几个概念参考文档:http://lucene.apache.org/core/4_10_3/core/org/apache/lucene/search/similarities/TFI...
阅读全文
摘要:HttpSolrServerHttpSolrServer继承SolrServer参考文档:http://my.oschina.net/qige/blog/173008
阅读全文
摘要:Criteria criteria = new Criteria(); public Criteria and(Criteria criteria) { this.criteriaChain.add(criteria); return this; }和 public Criteria and(C...
阅读全文
摘要:常见的元素其中field和copyField是平时开发需要修改的地方schema.xml概述schema.xml 文件包含所有的细节,这些细节包括你的多个文档可以包含哪些字段;添加多个文档到索引,或者查询这些字段的时候这些字段是如何处理的。多条查询的分析可以单独指定,在大多数环境下可以自动处理小写字...
阅读全文
摘要:spring-data-solr文档介绍如下:通过http://www.springframework.org/schema/data/solr/spring-solr-1.0.xsd(spring-data-solrxml配置约定)可以找到multicore-support配置信息xml里面添加一...
阅读全文
摘要:"$near"是唯一一个会对查询结果进行自动排序的地理空间操作符"$near"的返回结果是按照距离由近及远排序的。其他排序条件不会生效。这种按照地理位置远近查询怎么在solr排序中体现?参考文档如下:https://cwiki.apache.org/confluence/display/solr/S...
阅读全文
摘要:zookeeper可以管理solr和其他软件的配置文件。配置文件还是保存在linux服务器的磁盘上,但是不是改变solr读取solr/home配置的配置文件的位置。现在solr/home配置文件的位置有两个地方:E:\apache-tomcat-7.0.23\conf\Catalina\localh...
阅读全文
摘要:目前看过的源码包括solr源码=》看了之后才明白为啥索引数据文件的路径要这样配置spring-data-solr源码spring-data-mongodb源码spring源码
阅读全文
摘要:2.1Lucene如何对搜索内容进行建模2.1.1文档和域2.1.2灵活的架构往文档添加域,跟重建索引二者是什么关系?Lucene和数据库之间的第二个主要的区别是,Lucene要求你在进行索引操作时简单化或反向规格化原始数据。2.1.3反向规格化(Denormalization)2.2理解索引过程2...
阅读全文
摘要:多看几遍,慢就是快1.1应对信息爆炸1.2Lucene是什么1.2.1Lucene能做些什么1.2.2Lucene的历史1.3Lucene和搜索程序组件基本概念索引操作将原始数据引入可被高效查找的对照表中,以便能够对这些内容进行快速搜索。这里的对照表的结构是什么样的?是二叉排序树还是红黑树?索引是一...
阅读全文
摘要:初识Lucene构建索引为应用程序添加搜索功能Lucene的分析过程
阅读全文
摘要:solr非常灵活,虽然mongodb添加索引查询速度比较快,但是solr查询比mongodb更加灵活,所以需要获取mongodb的oplog,实时将oplog中的数据推送到solr中oplogAcapped collectionthat stores an ordered history of lo...
阅读全文
摘要:IKAnalyzer原理分析IKAnalyzer自带的void org.wltea.analyzer.dic.Dictionary.disableWords(Collection words)这个类的方法是指批量移除(屏蔽)词条,是指移除词典中的词语,并不能屏蔽搜索词中的敏感词。算法的时间复杂度,空...
阅读全文
摘要:solr的EmbeddedSolrServer原理深入探讨
阅读全文

浙公网安备 33010602011771号