2013 年 2月 3 日随笔档案 - 烤德

2013年2月3日

摘要：第一节全文检索系统与Lucene简介一、什么是全文检索与全文检索系统？全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以阅读全文

posted @ 2013-02-03 16:34 烤德阅读(4102) 评论(1) 推荐(0) 编辑

java网络蜘蛛Web Spider

摘要：网络蜘蛛即WebSpider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶.. 阅读全文

posted @ 2013-02-03 14:52 烤德阅读(1843) 评论(0) 推荐(0) 编辑

基于WEB资源的信息抽取技术

摘要：郭志红（上海交通大学情报研究所，上海200030）摘要web资源含有大量的有用信息，但由于它们欠结构化，不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来，转化成结构化信息，供其它信息集成系统所利用，成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型，对基于该模型的wrapper归纳技术进行了探讨，并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统引言Internet是一个巨大的信息资源库，它上面有着各种各样的在线信息：天气预报，股票价格，商品目录，政府法规和税收政策，个人爱好，研究报告等等。所有这些web资源信息都有两个共同的阅读全文

posted @ 2013-02-03 14:50 烤德阅读(621) 评论(0) 推荐(0) 编辑

Web信息抽取技术综述

摘要：摘要:本文介绍了web数据抽取的发展历史,总结了近年来国内外web数据抽取研究中所使用方法和研究现状,并介绍了数据抽取的评价指标,最后提出了目前web数据抽取仍然存在的问题。关键词:web;数据抽取;包装器 0、引言随着计算机广泛使用,大量有用的信息以电子文档的方式出现。而伴随internet的普及,很多有用的信息正在以惊人的速度,出现在internet中不同站点的web页面上。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上用户感兴趣的有用信息抽取出来,以便用户根据需要对数据加以分析,就成了现在数据抽取方面的研究热点... 阅读全文

posted @ 2013-02-03 14:39 烤德阅读(1666) 评论(0) 推荐(0) 编辑

基于HtmlParser的网络爬虫

摘要：一、目标获取网页中的超链接及链接名，如从http://www.hao123.com/开始，抓取所有hao123链接到的超链接，再以获取到的链接网页为目标，获取它所链接到的网页。二、环境及开发工具环境：Java工具：MyEclipse开发包：如图三、原理网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。而htmlparser能够很容易地提取到网页的信息，例如对HTML进行有效信息搜索、链接提取、用于自动给页面的阅读全文

posted @ 2013-02-03 13:59 烤德阅读(3152) 评论(6) 推荐(4) 编辑