pony

抄袭是一种美德

2009年5月21日

lucene的中文分词器

摘要: ucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。packageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.luce... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(973) 评论(0) 推荐(0) 编辑

lucene的丰富的各种查询

摘要: lucene支持十分丰富的查询,这里列写其中一些比较常用的查询的用法。term查询、queryParser查询 ,booleanQuerypackagesearch;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.index.Term;importorg.apache.lucene... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(737) 评论(0) 推荐(0) 编辑

比较lucene各种英文分析器Analyzer

摘要: 比较常用的几种英文分析器,他们之间的区别见程序中的注释。SimpleAnalyzerStandardAnalyzerWhitespaceAnalyzerStopAnalyzerpackageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.lucene.analysis.Analyzer;import... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(1074) 评论(0) 推荐(0) 编辑

lucene建立索引时候的用到的一些文档和目录操作

摘要: 在前边的文章中多是用的添加一个document,这里介绍一下其它的文档操作1,按照编号删除publicvoiddeleteDoc(StringindexDir)throwsException{IndexReaderreader=IndexReader.open(indexDir);reader.delete(1);reader.close();}2,根据term来删除publicvoiddelet... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(353) 评论(0) 推荐(0) 编辑

lucene 索引非txt文档 (pdf word rtf html xml)

摘要: 搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下:写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。word文档:把wo... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(732) 评论(0) 推荐(0) 编辑

apache lucene 的核心类

摘要: 下边介绍一下lucene的核心类:(参考lucene in action)主要有两部分组成,核心索引类和核心搜索类,顾名思意,就是用来建立索引和用来搜索的类。IndexWriter:可以对索引进行写操作,但不能读取或者搜索。是唯一能写索引的类。Directory:Directory 类代表一个Lucene索引的位置。它是一个抽象类,允许它的子类(其中的两个包含在Lucene中)在合适时存储索引。在... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(326) 评论(0) 推荐(0) 编辑

apache lucene 一个最简单的实例

摘要: 就像每个程序都有一个Hello World来让人体验它一样,lucene也可以很简单的提供一个实例。如下(来自lucene in action的例子)有两个类组成:一个是建立索引packagemy;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(465) 评论(0) 推荐(0) 编辑

apache lucene介绍

摘要: 什么是luceneApache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引 让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是 使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(1257) 评论(0) 推荐(0) 编辑

导航