烤德 - 博客园

2013年1月19日

摘要：词网WordNet研究1——之初始接触 WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. The resulting netwo 阅读全文

posted @ 2013-01-19 00:28 烤德阅读(1842) 评论(3) 推荐(1) 编辑

2013年1月13日

基于Heritrix+Lucene的搜索引擎构建（6）——搜索UI与结果页面

摘要：设计一用户界面，例如基于B/S结构的：把Lucene等程序包和开发的检索程序（类）导入到检索页面中，编写结果页面代码，例如searchresult.jsp：<%@ page language="java" import="java.util.*" pageEncoding="gb2312"%><%@ page import="java.io.IOException,java.io.StringReader,java.util.ArrayList, org.apache.lucene.analysis.Ana 阅读全文

posted @ 2013-01-13 15:19 烤德阅读(1406) 评论(4) 推荐(1) 编辑

2013年1月11日

基于Heritrix+Lucene的搜索引擎构建（5）——搜索部分

摘要： Lucene提供了检索工具，在基于Lucene实现检索时，我们主要使用以下几个类（或接口）：1）IndexSearcher:是lucene中最基本的检索工具，所有的检索都会用到IndexSearcher工具;2）Query:查询，lucene中支持模糊查询，语义查询，短语查询，组合查询等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。3）QueryParser: 是一个解析用户输入的工具，可以通过扫描用户输入的字符串，生成Query对象。4）Hits:在搜索完成之后，需要把搜索结果返回并显示给用户，只有这样才算是完成搜索的目的。在阅读全文

posted @ 2013-01-11 22:25 烤德阅读(1142) 评论(0) 推荐(1) 编辑

2013年1月7日

基于Heritrix+Lucene的搜索引擎构建（4）——索引建立

摘要：所谓索引建立，就是对一堆文档的内容建立一个索引表，当然是传说中的倒排索引。倒排索引：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。为了继续说明倒排文件，看看一下两个概念点：（1）顺排文件假设有网页P1,P2,……,Pn，给每个网页文件赋予一个编号Pid，给每个关键字赋予一个编号keyi，假设key是网页文件中的一个关键字，ni表示该关键阅读全文

posted @ 2013-01-07 23:01 烤德阅读(1461) 评论(3) 推荐(2) 编辑

HTML抽取工具HtmlParser

摘要：针对HTML抽取，相信很多人都听说过或者使用过HtmlParser。htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。不能说它能超高速解析html，但他的解析质量比较好，不容易出错。毫不夸张地说，htmlparser就是目前功能最强大的java html解析和分析的工具。HtmlParser项目网站：http://htmlparser.sourceforge.net/.入门学习HtmlParser的不妨参考《HtmlParser使用入门》这篇博客，当然一些使用技巧，也可参考《HTMLParser 学习》、《HTMLPars. 阅读全文

posted @ 2013-01-07 18:12 烤德阅读(957) 评论(0) 推荐(0) 编辑

2013年1月6日

HTML抽取工具Jsoup

摘要： Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。当前版本为1.7.1。jsoup的主要功能如下：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；Jsoup官方网站：http://jsoup.org/.可以通过其给出的学习资料http://jsoup.org/cookbook/和它的API进行学习http://jsoup.org/apidocs/.经过翻译的中文资料不妨参阅读全文

posted @ 2013-01-06 23:07 烤德阅读(4049) 评论(0) 推荐(0) 编辑

基于Heritrix+Lucene的搜索引擎构建（3）——页面信息内容抽取

摘要：搜索引擎无非是提供对Web内容的方便检索，以至于能够便捷的获取浏览到相关的页面。因此，在通过Heritrix等网络蜘蛛获取Web资源以后，首要的任务就是抽取Web页面的内容。基于java的页面抽取工具有很多，例如，抽取HTML页面的有HtmlParser、Jsoup等，至于Word、Excel等文件的内容，也有相应的工具。关于HtmlParser、Jsoup等页面内容抽取可以参考相关文献.如《HTML抽取工具Jsoup》。关于Word等文件，建议学习使用一款叫POI的开源工具来实现：Apache POI是一个开源的Java读写Excel、WORD等微软OLE2组件文档的项目。目前POI已经有了阅读全文

posted @ 2013-01-06 23:06 烤德阅读(1576) 评论(8) 推荐(2) 编辑

2013年1月5日

基于Heritrix+Lucene的搜索引擎构建（2）——索引与搜索框架Lucene

摘要： Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一个基于Java的全文搜索，不是一个完整的搜索应用，而是一个代码库和API，可以方便地为应用提供搜索功能。实际上Lucene的功能就是将开发人员提供的若干个字符串建立索引，然后提供一个全文搜索服务. 阅读全文

posted @ 2013-01-05 22:41 烤德阅读(1667) 评论(0) 推荐(1) 编辑

2013年1月4日

基于Heritrix+Lucene的搜索引擎构建（1）——网络蜘蛛Heritrix

摘要：网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件，流程图所示。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止，如图所示。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对阅读全文

posted @ 2013-01-04 21:41 烤德阅读(2206) 评论(0) 推荐(3) 编辑

2013年1月3日

基于Heritrix+Lucene的搜索引擎构建（0）——概述

摘要：系统功能需求：1.可自定义要搜索的网站列表；2.可对目标列表网站的网页内容进行检索。系统主要功能模块：网络蜘蛛：采集、解析并保存目标列表网站的内容（网页）。全文索引/检索：为目标列表网站内容建立索引，提供内容的全文检索。采取方案：网络蜘蛛——采用开源框架Heritrix，Heritrix是一个爬虫框架，可加如入一些可互换的组件。下载页面：http://crawler.archive.org/index.html。如何使用Heritrix可参考相关文献，也可笔者的《使用Heritrix爬虫爬取网页》。这里不再进行详细阐述。全文索引/检索——该部分基于Lucene实现的。Lucene是apache 阅读全文

posted @ 2013-01-03 23:12 烤德阅读(1626) 评论(1) 推荐(2) 编辑