摘要:public class SampleCode{ public SampleCode() {} // Download the HTML source code at the specified URL // You can optionally specify the user...
阅读全文
随笔分类 - 信息采集
1
摘要:这是在博客园上看到的一篇文章,觉得不错,先帖上来。这个经过测试,使用上比较稳定,因为考虑到统一的错误处理,类里面没有catch任何错误,所有网络错误都在使用的时候捕获,以便决定重试或终止。支持get和post,支持自定义编码,支持cookie,但不支持上传文件。 Imports System.NetImports System.IOPublic Class HttpDriverClass Htt...
阅读全文
摘要:前段时间做了一个网页爬虫,初次接触,收获了很多知识。其中关于HTTP协议的内容,记述如下: RFC2616中主要描述了HTTP 1.1协议。下面的描述没有实现其各个方面的内容,只提出了一种能够完成所有HTTP网页抓取的最小实现(不能够抓取HTTPS)。 1、首先提交一个URL地址,分为普通的GET网页获取,POST的数据提交两种基本模式。建立HttpWebReques实...
阅读全文
摘要:引言: 在做无线项目的时候,与通讯公司的数据通讯有一部分是通过XML交互的,所以必须要动态抓取通讯公司提供的固定的Internet上的数据,便研究了一下如何抓取固定url上的数据,现与大家分享一下。 类名GetPageCode,有一个方法GetSource,通过属性传递参数,入参控制的是要取得URL的地址,代理服务器的设置及输出方式的控制,这里大家可以再扩展自己的需要,我这里只提供了两种方式,...
阅读全文
摘要:using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions; public class App{ public static void Main() { string ...
阅读全文
摘要:最近有个项目需要从网络上下载网页信息和文件,并且需要登录后才能下载,所以做了个下载的通用类,供大家参考。这个是文件下载类: using System; using System.Net; using System.Web; public class SRWebClient { CookieContainer cookie; public SRWe...
阅读全文
摘要:现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性...
阅读全文
摘要:用Persistence为静态页面增加session功能 一般来说,只有服务器端的CGI程序(ASP、PHP、JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便。为此,本文向读者推荐一种在DH...
阅读全文
摘要:using System;using System.Drawing;using System.Collections;using System.ComponentModel;using System.Windows.Forms;using System.Data;using System.Text;using Microsoft.VisualBasic;using System.IO;usin...
阅读全文
摘要:第十章 系统的实现与总结 10.1 系统实现情况 文本的研究工作是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下进行的。系统是在原有基于站点采集的天罗采集系统的基础上改进实现的。 原有的天罗信息采集系统是一个采集性能较高的实用系统,它是我们“天罗”Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的...
阅读全文
摘要:第八章 页面分析 在本信息采集的URL和页面的过滤判定过程中,主要处理HTML页面。因此,在页面分析中我们所做的工作主要包括对HTML页面进行语法分析,提取出正文、链接、链接的扩展元数据及其它相关内容;再把这些内容进行简单的加工和一致性处理;最后将处理结果保存在中间信息记录库中以供URL过滤处理和页面过滤处理。 8.1 HTML语法分析 因为采集到页面的语法分析基于HTML(Hyp...
阅读全文
摘要:第七章 Spider采集 信息采集系统的最前沿就是与Internet相连的Spider采集,也叫“网络蜘蛛”,是系统专门与具体的Web协议打交道的部分。主要通过各种Web协议来自动采集WWW站点内有效的信息(包括文本、超链接文本、图象、声音、影像、压缩包等各类文档)。这些Web协议包括HTTP、FTP以及BBS,我们还根据用户的需要,采集了Web Chat、ICQ等特殊信息。本章先...
阅读全文
摘要:第五章 基于主题的Web 信息采集系统模型及我们的对策 5.1 系统模型 基于主题的Web信息采集技术在应用需求的推动下,已经成为一个热门的研究课题,为了更好的研究这个课题,我们设计了一个基于主题的Web 信息采集系统模型,如图5.1所示。为实现对基于主题的信息自动采集,我们将整个处理过程分成五大模块:主题选择和初始URL选择、Spider采集、页面分析、URL与主题的性关性判定(...
阅读全文
摘要:第四章 基于主题的Web 信息采集基本问题研究 在本章里,我们主要围绕基于主题的Web信息采集基本问题展开了研究,这主要包括主题的Web信息采集的定义、优点、分类,主题页面在Web上的分布特征以及相关性判别算法,后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。 4.1 基于主题的Web信息采集的定义 在Web信息采集的大家庭中,有...
阅读全文
摘要:第三章 Web信息采集的研究现状 目前,Web信息采集技术的发展正如火如荼,在传统的Web信息采集技术的基础上,又出现了许多轻型的各具特色的采集技术。我们根据国内外流行的看法,结合我们在这方面长期积累的实际经验,把Web信息采集的发展方向分为以下几种:基于整个Web的信息采集(Scalable Web Crawling),增量式Web信息采集(Incremental Web Cra...
阅读全文
摘要:第二章 Web信息采集概述 在研究基于主题的Web信息采集之前,让我们先来看看Web信息采集的基本情况,这包括Web信息采集的基本原理、基本结构和主要难题。它们是从各类Web信息采集系统中抽象出来的,因此代表了比较本质和共性的特征,而对于每个实际的采集系统来说,又与它们有所差别。为了更好的了解采采集系统,我们在本章的最后列举了两个实例。 2.1 Web信息采集系统的基本原理 Web...
阅读全文
摘要:目 录 第一章 引言……………………………………………………………………………….1 1.1 背景... 1 1.2 本文安排... 2 第二章 Web信息采集概述………………………………………………………………4 2.1 Web信息采集系统的基本原理... 4 2.2 Web信息采集系统的基本结构... 4 2.3 Web信息采集面临的主要困难和相应的技术手段: 6 2.4 采集...
阅读全文
摘要:public DataSet GetData(string httpUrl) { string xmlPath = @"http地址"; // 该地址不能包含中文 DataSet ds = new DataSet(); WebClient wc = n...
阅读全文
摘要:一个信息采集系统的例子:http://www.brtech.com.cn/cn/ChannelDir/137.html 远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤:1.远程获取页面的全部Html源文本.2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据)3.将格式有效的数据,根据自...
阅读全文
摘要:背景 随着Internet的普及,网络信息正以极高的速度增长,在这么多数据中找到自己需要的信息是一件很繁琐的事情,找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来代替人工的操作。 所谓Internet信息抓取程序,就是程序会按照用户的关键词或关键网站来收集相应的信息,并提供给用户想要的信息格式。 信息量的增加会带来信息网站发布人员工作量的剧增,为实现信息发布系...
阅读全文
1