摘要: http://blog.csdn.net/licaoiii/article/details/7307168http://blog.csdn.net/licaoiii/article/details/7307140 阅读全文
posted @ 2012-08-01 16:22 lcuzhanglei 阅读(100) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/licaoiii/article/details/7357514 阅读全文
posted @ 2012-08-01 16:08 lcuzhanglei 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 首先什么是中文分词stop word?英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。其次中文分词和搜索引擎关系与影响!中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义 阅读全文
posted @ 2012-08-01 16:02 lcuzhanglei 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 首先,我们应该有一个概念,在Lucene的内置排序方法中,升降序规则默认都是natural ording,即在Sorting by relevance中默认desc,在其他排序中则是asc。 1.Sorting by relevance,中文可以叫"适当的排序"?好象有点别扭,呵呵.这也是Lucene的默认排序,即按评分结果倒序排列. 以下几种search方法都是实现的同样的效果: search(Query query,null),search(Query query,Sort.RELEVANCE),search(Query query,new Sort()) 结果首先按照 阅读全文
posted @ 2012-08-01 15:55 lcuzhanglei 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 本示例是对Lucene查询,对结果进行了一些处理(Lucene 3.5):1、支持前缀搜索,如*国,可以搜索出中国、美国等国字结尾的词的内容: 支持后缀匹配,如国* 则可以搜索中国、美国等以国字结尾的词,*:*可以查询所有索引。 parser.setAllowLeadingWildcard(true); 2、搜索时在有通配符时可以不区分大小写: // 有通配符时不转换大小写 parser.setLowercaseExpandedTerms(false); 3、结果进行多字段排序,详细见代码排序部分; 4、结果高亮显示,详细见代码高亮部分。 package cn.test.gxg.engine. 阅读全文
posted @ 2012-08-01 15:51 lcuzhanglei 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 现在开发搜索系统,使用的是开源界比较推崇的Lucene,版本是Maven库上面的3.5,这个版本里面有很多方法都不建议使用了。所以代码创建的方式有那么点变化,我使用的分词器是IkAnalyzer。Lucene全文检索的功能是很强大的,我们在做电子商务系统的时候肯定是会遇到排序的问题,比如销量,比如价格等等,为了方便客户我们便需要Lucene的排序功能,其实Lucene中的排序很简单也很方便,我们在创建搜索器的时候增加一个Sort 就行了,Sort的构造函数需要SortField,具体大家可以去参考Lucene的源代码,我下面写了一个简单的例子来演示怎么使用。代码如下: import ja... 阅读全文
posted @ 2012-08-01 15:24 lcuzhanglei 阅读(1948) 评论(0) 推荐(0) 编辑
摘要: 在appfuse的web.xml声明文件中有下面的类似声明:<filter> <filter-name>rewriteFilter</filter-name> <filter-class>org.tuckey.web.filters.urlrewrite.UrlRewriteFilter</filter-class> <init-param> <param-name>logLevel</param-name> <param-value>commons</param-value> 阅读全文
posted @ 2012-08-01 10:18 lcuzhanglei 阅读(330) 评论(0) 推荐(0) 编辑