摘要: 相对于英文检索,中文检索有两个特别要考虑的问题:编码问题和中文分词问题。 一、编码问题 1. 为了解决中文编码问题,我们在网页结构化信息预处理的时候统一采用utf-8编码; 2. 在Lucene创建索引的时候,构造一个BufferedReader对象以utf-8编码读取文件,使用如下语句: Buff 阅读全文
posted @ 2017-05-07 01:36 shulin15 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 在讲解Lucene索引和检索的原理之前,我们先来实战Lucene:一个简单的小程序! 一、索引小程序 首先,new一个java project,名字叫做LuceneIndex。 然后,在project里new一个class,名字叫做Indexer。这个类用来给文件建索引(建好索引以后就可以高效检索了 阅读全文
posted @ 2017-05-05 08:21 shulin15 阅读(2721) 评论(1) 推荐(0) 编辑
摘要: Lucene是一个高效的,基于Java的全文检索库[1]。所以在介绍Lucene的检索功能之前,我们要先了解一下全文检索以及Lucene的索引结构。 一、全文检索的基本原理 1. 数据的分类 什么是全文检索呢,这要从我们生活中的数据说起。我们生活中的数据可以分为三种: 结构化数据:指具有固定格式或有 阅读全文
posted @ 2017-05-04 16:46 shulin15 阅读(817) 评论(1) 推荐(0) 编辑
摘要: Lucene是Java开发的一套用于全文检索和搜索的开源程序库,它面向对象多层封装,提供了一个低耦合、与平台无关的、可进行二次开发的全文检索引擎架构,是这几年最受欢迎的信息检索程序库[1]。对Lucene的进一步了解可以参照Lucene更详细的资料以及Lucene6.2.1的官方文档。 由于Luce 阅读全文
posted @ 2017-05-04 00:38 shulin15 阅读(4970) 评论(0) 推荐(0) 编辑
摘要: 我们设计的儿童搜索引擎实现了三大系统:检索系统,推荐系统和前端展示系统。 1. 检索系统 检索系统是搜索引擎的核心,实现检索的基本功能。对于本系统,我们有两种实现方式: 基于Lucene的自建数据库的全文检索 基于已有独立网站的元搜索 2. 推荐系统 推荐系统是为用户推荐可能感兴趣的内容,分为两个步 阅读全文
posted @ 2017-05-02 22:58 shulin15 阅读(1508) 评论(0) 推荐(0) 编辑
摘要: 用lucene3实现搜索多字段并排序功能(设置权重) 阅读全文
posted @ 2017-04-27 17:44 shulin15 阅读(129) 评论(0) 推荐(0) 编辑
摘要: Lucene BooleanQuery中的Occur.MUST与Occur.Should 阅读全文
posted @ 2017-04-27 17:38 shulin15 阅读(194) 评论(0) 推荐(0) 编辑
摘要: http://codeforces.com/contest/798/problem/D http://blog.csdn.net/yasola/article/details/70477816 对于二维的贪心我们可以先让它变成其中一维有序,这样只需要重点考虑另一维,就会简单很多。 首先,对于题目要求 阅读全文
posted @ 2017-04-24 21:13 shulin15 阅读(227) 评论(0) 推荐(0) 编辑
摘要: C. Mike and gcd problem http://www.cnblogs.com/BBBob/p/6746721.html 1 #include<iostream> 2 #include<cstdio> 3 #include<string> 4 #include<cstring> 5 # 阅读全文
posted @ 2017-04-24 20:12 shulin15 阅读(144) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/AOQNRMGYXLMV/p/4934747.html 1 #include<iostream> 2 #include<cstdio> 3 #include<algorithm> 4 5 using namespace std; 6 const int 阅读全文
posted @ 2017-04-24 12:33 shulin15 阅读(144) 评论(0) 推荐(0) 编辑