searchDM - 博客园

2010年3月19日

摘要：按层面检索是SOLR推出的一项特性，可以再检索结果中按照事先设定的分类，标签等显示，目前已经有很多搜索引擎提供这项功能，现将SOLR的实现步骤展示给大家：首先在配置之前，需要将自己的分类，或标签等将要按照层面检索的字段，设置为索引，存储格式，并已创建索引。找到SOLR的核心配置文件： solrconfig.xml 找到SOLR的标准请求处理器,并加入以下XML代码： standard requ... 阅读全文

posted @ 2010-03-19 23:57 searchDM 阅读(515) 评论(0) 推荐(0) 编辑

如何在SOLR中嵌入自己的分词系统

摘要： SOLR虽然为我们提供了分词的接入方法,但很显然并不奏效，搜遍了大江南北，也没有什么可参考的，大部分都是使用的IK或庖丁之类的分词~~，难不成就这样永远活在别人的阴影中？？答案是"NO!"，如果是这样那就意味着屏蔽词管理，词典实时更新，实时持久化等多个个性化的产品需求得以在这些分词系统上半路杀入，老鸟应该都明白这种做法的成本是太高了。 SOLR推荐但失败的分词接入方法是在schema.xml字段配置文件中写入以下配置：编写自己的TokenFactory ,该类继成自 SOLR的BaseTokenizerFactory ，找到以下配置节点，并将 tokenizer的 c 阅读全文

posted @ 2010-03-19 23:23 searchDM 阅读(510) 评论(0) 推荐(0) 编辑

2010年3月9日

jetty

摘要：作者:Ethan McCallum;shenpipi 原文:http://www.onjava.com/pub/a/onjava/2006/06/14/what-is-jetty.html Jetty 是一个开源的servlet容器，它为基于Java的web内容，例如JSP和servlet提供运行环境。Jetty是使用Java语言编写的，它的 API以一组JAR包的形式发布。开发人员可以将Jetty容器实例化成一个对象，可以迅速为一些独立运行（stand-alone）的Java应用提供网络和web连接。本文包括以下内容: 1.嵌入式Servlet容器有什么意义? 2.建立一个嵌入式的... 阅读全文

posted @ 2010-03-09 13:43 searchDM 阅读(483) 评论(0) 推荐(0) 编辑

利用SOLR搭建企业搜索平台之六（分布式题外话）linux ssh 免密码登陆

摘要：关于这篇文章我本来不想写，但是后来在我自己亲身的操作中，发生了很多意想不到的事，到最后我完成整个操作的时候，才发现非常的简单，简单的倒难以想象。但是就是这么一个简单的操作过程却被很多人写的复杂要命。所以我觉得有必要给广大初学者以最快速度搞清楚问题。入正题： 1》你有两台机器，在每台机器上运行 ssh-keygen -t rsa命令后一路三个回车，它的结果是在你当前用户的主文件夹下面会生成一个 .ssh文件夹里面有两个文件。 2》cp id_rsa.pub authorized_keys将两台机器的authorized_keys互相交换，可以使用命令: scp authorized use.. 阅读全文

posted @ 2010-03-09 13:37 searchDM 阅读(331) 评论(0) 推荐(0) 编辑

solr高亮的使用

摘要：今天要说的是关于solr的高亮设置，我一直认为solr的高亮设置封装的还是有一些麻烦的，所以，现在说说到底要怎么用它。入正题： 1》首先看SolrQuery类，此类有方法setHighlight(true)，当设置为true时，表示开启了高亮 2》还是SolrQuery类，看方法 Java代码 //以下给两个字段开启了高亮，分别是name，description，query.addHighlightField("name");query.addHighlightField("description");//以下两个方法主要是在高亮的关键字前后加上ht 阅读全文

posted @ 2010-03-09 13:35 searchDM 阅读(866) 评论(0) 推荐(0) 编辑

solr的范围查询 TO

摘要：最近出了一个问题，搞了真的有一天，最后终于搞定了，就是这个范围查询，当时使用的是100 TO 500的时候，总是会出现这个范围之外的结果，令人心寒啊。后来仔细看了看schema.xml中的注释，请注意是1.4版本，以前1.3版本是没有出现这种情况的。在1.4中的各个数值型有很多种，其中float是不支持范围查询的，有sfloat可以支持，具体的我也不记得了，希望大家在使用的时候，要注意看看这些注释，不要忽律啊！阅读全文

posted @ 2010-03-09 13:34 searchDM 阅读(759) 评论(0) 推荐(0) 编辑

solr client 简化solr编程

摘要：做solr的开发已经很长时间了，对于官方的solrj还是不是很满意，所以为了广大solrer能更方便的利用solr，个人封装了一些代码，算是一个小小的框架把，欢迎大家拍砖。目前项目已经开源，地址：http://code.google.com/p/clientforsolr/ 目前的功能： 1》对solr的commit，update，delete，optimize等进行了封装，提供了更加方便的操作； 2》对实体类到SolrInputDocument或者SolrDocument到实体类或者SolrDocument到SolrInputDocument提供了简单的转换； 3》提供了SolrSer.. 阅读全文

posted @ 2010-03-09 13:34 searchDM 阅读(841) 评论(0) 推荐(0) 编辑

利用SOLR搭建企业搜索平台之十四（Solr的检索运算符）

摘要： 1. “:” 指定字段查指定值，如返回所有值*:* 2. “?” 表示单个任意字符的通配 3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号） 4. “~” 表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。 5. 邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~10 6. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增... 阅读全文

posted @ 2010-03-09 13:33 searchDM 阅读(523) 评论(0) 推荐(0) 编辑

利用SOLR搭建企业搜索平台之十三 (solr分词器、过滤器、分析器)

摘要：昨天晚上详细的说了说lucene的分析器，分词器，过滤器。今天我们来说说solr中的这三者吧。他是怎么基于lucene来写的。部分内容参见网上某文章关于lucene的分析器，分词器，过滤器，请看：http://lianj-lee.javaeye.com/blog/501247 入正题：对一个document进行索引时，其中的每个field中的数据都会经历分析（根据上面的一个博客可以知道，分析就是组合分词和过滤），最终将一句话分成单个的单词，去掉句子当中的空白符号，大写转换小写，复数转单数，去掉多余的词，进行同义词代换等等。如：This is a blog! this, is... 阅读全文

posted @ 2010-03-09 13:32 searchDM 阅读(1326) 评论(0) 推荐(0) 编辑

利用SOLR搭建企业搜索平台之十二 (字段增加权重)

摘要：在很多时候，我们可能会需要增加某一个字段的权重，以合理的显示搜索结果。例如：有一个schma，有三个字段：chapterId, title, content. 我们希望某一个关键字如果在title中匹配了，就要优先显示，而在content中匹配了，就放在搜索结果的后面。当然，如果两者同时匹配当然没什么好说的了。看看solr中如何做到吧。 title:(test1 test2)^4 content:(test1 test2) 给title字段增加权重，优先匹配关于^后面的数字4，经过我测试，最佳值应该是有n个字段就写成n+1，当然希望大家能更好的去测试！阅读全文

posted @ 2010-03-09 13:31 searchDM 阅读(858) 评论(0) 推荐(0) 编辑

wycg1984

公告