摘要: 关于lucene的RAMDirectory和FSDirectory的性能问题的困惑在lucene in Action书中说RAMDirectory的性能总是比FSDirectory优越(书中2.7.2章节) 并附了测试用例 我根据测试用例去实际测试了一下,结果是相反的 这让我很困惑,内存没道理比文件系统慢啊。。 附上执行结果: RAMDirectory Time: 500 ms FSDirectory Time: 266 ms 以下是我的代码(基本照搬书中例子,只更改了for循环写法和使用了2.9的推荐方法取代了老版本的方法)import java.io.File;import java.io 阅读全文
posted @ 2014-03-13 11:16 风未馨 阅读(1517) 评论(1) 推荐(0) 编辑
摘要: lucene中的IndexWriter.setMaxFieldLength()老版本的Lucene中,IndexWriter的maxFieldLength是指一个索引中的最大的Field个数。这个属性在Lucene2.9.0中是不可见的,对其的修改被放在相应的setMaxFieldLength(Int l)和getMaxFiedLength()中;当索引中的Field的个数等于这个属性时,新增的任何field都会被忽略,即使对己经存在相同的Field新增内容也是不可以的。附上一个测试类(Lucene in action)package test;import java.io.File;impo 阅读全文
posted @ 2014-03-13 11:07 风未馨 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 1、新建两个文件夹htm和index,其中htm中存放被索引的文件,index文件中存放建立的索引文件。2、新建解析目录中所有文件的类,用来解析指定目录下的所有文件。import java.io.File;public class FileList {private static final String SEP="/";private static StringBuffer sb=new StringBuffer("");public static String[] getFiles(File file){//取得file目录中所有的文件if(file 阅读全文
posted @ 2014-03-13 10:18 风未馨 阅读(665) 评论(0) 推荐(0) 编辑
摘要: RawCluster:聚类中的类别单位RawCluster.getDocuments():获得该类的文档列表RawDocument:每个类的文档单位STC:后缀树表示法2008-11-13Carrot2的组建(components)的介绍:1. 输入(input):产生聚类文本的组建。Carrot2针对目前的几个主要搜索引擎(Yahoo:carrot2-input-yahooapi.jar, Google, MSN Search)和开源搜索引擎(lucene:carrot2-input-lucene.jar)以及XMLs接口 (such as RSS or OpenSearch:carrot2 阅读全文
posted @ 2014-03-13 10:01 风未馨 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 第一部分:Lucene建立索引Lucene建立索引主要有以下两步:第一步:建立索引器第二步:添加索引文件准备在f盘建立lucene文件夹,然后在lucene下建立文件夹test和index两个文件夹。在test文件夹下建立如下四个txt文件a.txt 内容:中华人民共和国b.txt 内容:人民共和国c.txt 内容:人民d.txt 内容:共和国这四个文件就是我们要建立索引的文件,Index文件夹作为索引结果输出文件夹准备工作完成以后,我们开始建立索引。第一步:建立索引器,如下IndexWriter writer = new IndexWriter("f:\\luce... 阅读全文
posted @ 2014-03-13 09:34 风未馨 阅读(469) 评论(0) 推荐(0) 编辑
摘要: Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.org/java/2_9_0/fileformats.html) 这篇文章。一、基本概念下图就是Lucene生成 阅读全文
posted @ 2014-03-13 09:08 风未馨 阅读(1976) 评论(0) 推荐(0) 编辑