摘要:
相对于英文检索,中文检索有两个特别要考虑的问题:编码问题和中文分词问题。 一、编码问题 1. 为了解决中文编码问题,我们在网页结构化信息预处理的时候统一采用utf-8编码; 2. 在Lucene创建索引的时候,构造一个BufferedReader对象以utf-8编码读取文件,使用如下语句: Buff 阅读全文
摘要:
在讲解Lucene索引和检索的原理之前,我们先来实战Lucene:一个简单的小程序! 一、索引小程序 首先,new一个java project,名字叫做LuceneIndex。 然后,在project里new一个class,名字叫做Indexer。这个类用来给文件建索引(建好索引以后就可以高效检索了 阅读全文
摘要:
Lucene是一个高效的,基于Java的全文检索库[1]。所以在介绍Lucene的检索功能之前,我们要先了解一下全文检索以及Lucene的索引结构。 一、全文检索的基本原理 1. 数据的分类 什么是全文检索呢,这要从我们生活中的数据说起。我们生活中的数据可以分为三种: 结构化数据:指具有固定格式或有 阅读全文
摘要:
Lucene是Java开发的一套用于全文检索和搜索的开源程序库,它面向对象多层封装,提供了一个低耦合、与平台无关的、可进行二次开发的全文检索引擎架构,是这几年最受欢迎的信息检索程序库[1]。对Lucene的进一步了解可以参照Lucene更详细的资料以及Lucene6.2.1的官方文档。 由于Luce 阅读全文
摘要:
我们设计的儿童搜索引擎实现了三大系统:检索系统,推荐系统和前端展示系统。 1. 检索系统 检索系统是搜索引擎的核心,实现检索的基本功能。对于本系统,我们有两种实现方式: 基于Lucene的自建数据库的全文检索 基于已有独立网站的元搜索 2. 推荐系统 推荐系统是为用户推荐可能感兴趣的内容,分为两个步 阅读全文