随笔 - 934, 文章 - 0, 评论 - 247, 阅读 - 344万

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

随笔分类 -  lucene

摘要:在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的WhitespaceAnalyzer,添加了stopword过滤的StopAnalyzer,以及最常用的是StandardAnalyzer。这些自带的分词器对中文支持多不好,我觉得比较好的中文分词器是 mmse... 阅读全文

posted @ 2010-05-14 17:03 蝈蝈俊 阅读(1417) 评论(0) 推荐(1) 编辑

摘要:lucene 文件存储相关的几个类,以及他们的派生关系如下图: Directory 代表了 Lucene 的索引的存储的位置,这是一个抽象类。 DbDirectory 存储到 Berkeley DB 4.3 的实现,Berkeley DB是历史悠久的嵌入式数据库系统,主要应用在UNIX/LINUX操作系统上,其设计思想是简单、小巧、可靠、高性能。 JEDirectory 存储到 Berkele... 阅读全文

posted @ 2010-05-14 10:48 蝈蝈俊 阅读(600) 评论(0) 推荐(0) 编辑

摘要:lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文件、字符流进行全文索引,在检索的时候对索引进行快速的检索,得到检索位置,这个位置记录检索词出现的文件路径或者某个关键词。 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index);段(Segment);文档(Document);域(Field);词(Term),他们的关系如下图所示:(luc... 阅读全文

posted @ 2010-05-13 11:34 蝈蝈俊 阅读(954) 评论(0) 推荐(0) 编辑

摘要:这是最简单的方式的 lucene 的 Demo 步骤, 有稍稍的经验的都应该飘过。 step1:下载并安装并配置 JDK ,具体方法参看我之前的博客: Java环境的搭建 step2: 下载并配置 lucene, 下载请去: http://labs.renren.com/apache-mirror/lucene/java/ 以我下载的 lucene 3.0.1 为例,下载完后,我们在解压缩目录下... 阅读全文

posted @ 2010-05-12 12:45 蝈蝈俊 阅读(2193) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示