04 2016 档案
摘要:理解索引过程中的核心类 执行简单索引的时候需要用的类有: IndexWriter、Directory、Analyzer、Document、Field 1、IndexWriter IndexWriter(写索引)是索引过程的核心组件,这个类负责创建新的索引,或者打开已有的索引,以及向索引中添加
阅读全文
摘要:搭建lucene的步骤这里就不详细介绍了,无外乎就是下载相关jar包,在eclipse中新建java工程,引入相关的jar包即可 本文主要在没有剖析lucene的源码之前实战一下,通过实战来促进研究 建立索引 下面的程序展示了indexer的使用 在eclipse中配置好参数: E:\lucenei
阅读全文
摘要:Lucene总的来说是:• 一个高效的,可扩展的,全文检索库。• 全部用Java实现,无须配置。• 仅支持纯文本文件的索引(Indexing)和搜索(Search)。• 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如
阅读全文
摘要:我们生活中的数据总体分为两种: 结构化数据和非结构化数据。 结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据: 指不定长或无固定格式的数据,如邮件, word 文档等。当然有的地方还会提到第三种,半结构化数据,如 XML, HTML 等,当根据需要可按结构化数据来处理,
阅读全文