信息采集 - 随笔分类 - 阿昆

GetPageHTML - Get the HTML code for a given URL

摘要：public class SampleCode{ public SampleCode() {} // Download the HTML source code at the specified URL // You can optionally specify the user... 阅读全文

posted @ 2006-03-27 13:28 阿昆阅读(1061) 评论(5) 推荐(0) 编辑

用来获取网页的类

摘要：这是在博客园上看到的一篇文章，觉得不错，先帖上来。这个经过测试，使用上比较稳定，因为考虑到统一的错误处理，类里面没有catch任何错误，所有网络错误都在使用的时候捕获，以便决定重试或终止。支持get和post，支持自定义编码，支持cookie，但不支持上传文件。 Imports System.NetImports System.IOPublic Class HttpDriverClass Htt... 阅读全文

posted @ 2006-03-26 06:41 阿昆阅读(821) 评论(0) 推荐(0) 编辑

实现HTTP内容的抓取

摘要：前段时间做了一个网页爬虫，初次接触，收获了很多知识。其中关于HTTP协议的内容，记述如下： RFC2616中主要描述了HTTP 1.1协议。下面的描述没有实现其各个方面的内容，只提出了一种能够完成所有HTTP网页抓取的最小实现（不能够抓取HTTPS）。 1、首先提交一个URL地址，分为普通的GET网页获取，POST的数据提交两种基本模式。建立HttpWebReques实... 阅读全文

posted @ 2006-03-26 06:11 阿昆阅读(4346) 评论(0) 推荐(0) 编辑

从Internet上抓取指定URL的源码的方案

摘要：引言：在做无线项目的时候，与通讯公司的数据通讯有一部分是通过ＸＭＬ交互的，所以必须要动态抓取通讯公司提供的固定的Internet上的数据，便研究了一下如何抓取固定url上的数据，现与大家分享一下。类名GetPageCode，有一个方法GetSource，通过属性传递参数，入参控制的是要取得URL的地址，代理服务器的设置及输出方式的控制，这里大家可以再扩展自己的需要，我这里只提供了两种方式，... 阅读全文

posted @ 2006-03-26 06:08 阿昆阅读(688) 评论(0) 推荐(0) 编辑

提取网页中的超链接(C＃)

摘要：using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions; public class App{ public static void Main() { string ... 阅读全文

posted @ 2006-03-26 05:03 阿昆阅读(632) 评论(0) 推荐(1) 编辑

一个网站登录，然后下载网页源代码和文件的代码

摘要：最近有个项目需要从网络上下载网页信息和文件，并且需要登录后才能下载，所以做了个下载的通用类，供大家参考。这个是文件下载类： using System; using System.Net; using System.Web; public class SRWebClient { CookieContainer cookie; public SRWe... 阅读全文

posted @ 2006-03-26 04:59 阿昆阅读(858) 评论(0) 推荐(0) 编辑

网络数据库挖掘程序的设计

摘要：现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性... 阅读全文

posted @ 2006-03-26 04:04 阿昆阅读(684) 评论(0) 推荐(0) 编辑

防采集第一招

摘要：用Persistence为静态页面增加session功能一般来说，只有服务器端的CGI程序（ASP、PHP、JSP）具有session会话功能，用来保存用户在网站期间（会话）的活动数据信息，而对于数量众多的静态页面（HTML）来说，只能使用客户端的cookies来保存临时活动数据，但对于cookies的操作是个很烦琐的过程，远没有对于session操作那样简便。为此，本文向读者推荐一种在DH... 阅读全文

posted @ 2006-03-26 03:44 阿昆阅读(406) 评论(0) 推荐(0) 编辑

一个信息采集的简单例子

摘要：using System;using System.Drawing;using System.Collections;using System.ComponentModel;using System.Windows.Forms;using System.Data;using System.Text;using Microsoft.VisualBasic;using System.IO;usin... 阅读全文

posted @ 2006-03-26 03:27 阿昆阅读(956) 评论(1) 推荐(0) 编辑

基于主题的Web信息采集技术研究（八）

摘要：第十章系统的实现与总结 10.1 系统实现情况文本的研究工作是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下进行的。系统是在原有基于站点采集的天罗采集系统的基础上改进实现的。原有的天罗信息采集系统是一个采集性能较高的实用系统，它是我们“天罗”Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的... 阅读全文

posted @ 2006-03-26 02:57 阿昆阅读(863) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究（七）

摘要：第八章页面分析在本信息采集的URL和页面的过滤判定过程中，主要处理HTML页面。因此，在页面分析中我们所做的工作主要包括对HTML页面进行语法分析，提取出正文、链接、链接的扩展元数据及其它相关内容；再把这些内容进行简单的加工和一致性处理；最后将处理结果保存在中间信息记录库中以供URL过滤处理和页面过滤处理。 8.1 HTML语法分析因为采集到页面的语法分析基于HTML（Hyp... 阅读全文

posted @ 2006-03-26 02:56 阿昆阅读(724) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究（六）

摘要：第七章 Spider采集信息采集系统的最前沿就是与Internet相连的Spider采集，也叫“网络蜘蛛”，是系统专门与具体的Web协议打交道的部分。主要通过各种Web协议来自动采集WWW站点内有效的信息（包括文本、超链接文本、图象、声音、影像、压缩包等各类文档）。这些Web协议包括HTTP、FTP以及BBS，我们还根据用户的需要，采集了Web Chat、ICQ等特殊信息。本章先... 阅读全文

posted @ 2006-03-26 02:54 阿昆阅读(696) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究（五）

摘要：第五章基于主题的Web 信息采集系统模型及我们的对策 5.1 系统模型基于主题的Web信息采集技术在应用需求的推动下，已经成为一个热门的研究课题，为了更好的研究这个课题，我们设计了一个基于主题的Web 信息采集系统模型，如图5.1所示。为实现对基于主题的信息自动采集，我们将整个处理过程分成五大模块：主题选择和初始URL选择、Spider采集、页面分析、URL与主题的性关性判定(... 阅读全文

posted @ 2006-03-26 02:52 阿昆阅读(803) 评论(0) 推荐(0) 编辑

基于主题的Web 信息采集技术研究（四）

摘要：第四章基于主题的Web 信息采集基本问题研究在本章里，我们主要围绕基于主题的Web信息采集基本问题展开了研究，这主要包括主题的Web信息采集的定义、优点、分类，主题页面在Web上的分布特征以及相关性判别算法，后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。 4.1 基于主题的Web信息采集的定义在Web信息采集的大家庭中，有... 阅读全文

posted @ 2006-03-26 02:51 阿昆阅读(1093) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究（三）

摘要：第三章 Web信息采集的研究现状目前，Web信息采集技术的发展正如火如荼，在传统的Web信息采集技术的基础上，又出现了许多轻型的各具特色的采集技术。我们根据国内外流行的看法，结合我们在这方面长期积累的实际经验，把Web信息采集的发展方向分为以下几种：基于整个Web的信息采集(Scalable Web Crawling)，增量式Web信息采集(Incremental Web Cra... 阅读全文

posted @ 2006-03-26 02:49 阿昆阅读(1185) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究（二）

摘要：第二章 Web信息采集概述在研究基于主题的Web信息采集之前，让我们先来看看Web信息采集的基本情况，这包括Web信息采集的基本原理、基本结构和主要难题。它们是从各类Web信息采集系统中抽象出来的，因此代表了比较本质和共性的特征，而对于每个实际的采集系统来说，又与它们有所差别。为了更好的了解采采集系统，我们在本章的最后列举了两个实例。 2.1 Web信息采集系统的基本原理 Web... 阅读全文

posted @ 2006-03-26 02:48 阿昆阅读(1295) 评论(0) 推荐(0) 编辑

基于主题的Web信息采集技术研究(一)

摘要：目录第一章引言……………………………………………………………………………….1 1.1 背景... 1 1.2 本文安排... 2 第二章 Web信息采集概述………………………………………………………………4 2.1 Web信息采集系统的基本原理... 4 2.2 Web信息采集系统的基本结构... 4 2.3 Web信息采集面临的主要困难和相应的技术手段: 6 2.4 采集... 阅读全文

posted @ 2006-03-26 02:43 阿昆阅读(1237) 评论(0) 推荐(1) 编辑

利用WebClient获取远程数据（仅做备份）

摘要：public DataSet GetData(string httpUrl) { string xmlPath = @"http地址"; // 该地址不能包含中文 DataSet ds = new DataSet(); WebClient wc = n... 阅读全文

posted @ 2006-03-26 01:55 阿昆阅读(322) 评论(0) 推荐(0) 编辑

(转)用.net实现远程获取其他网站页面内容!(核心代码分析)

摘要：一个信息采集系统的例子：http://www.brtech.com.cn/cn/ChannelDir/137.html 远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤:1.远程获取页面的全部Html源文本.2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据)3.将格式有效的数据,根据自... 阅读全文

posted @ 2006-03-26 01:43 阿昆阅读(647) 评论(0) 推荐(0) 编辑

C#实现web信息自动抓取

摘要：背景随着Internet的普及，网络信息正以极高的速度增长，在这么多数据中找到自己需要的信息是一件很繁琐的事情，找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来代替人工的操作。所谓Internet信息抓取程序，就是程序会按照用户的关键词或关键网站来收集相应的信息，并提供给用户想要的信息格式。信息量的增加会带来信息网站发布人员工作量的剧增，为实现信息发布系... 阅读全文

posted @ 2006-03-23 13:45 阿昆阅读(384) 评论(1) 推荐(0) 编辑

海纳百川有容乃大（http://www.brtech.com.cn）

公告

随笔分类 - 信息采集

海纳百川 有容乃大（http://www.brtech.com.cn）

公告

随笔分类 - 信息采集

海纳百川有容乃大（http://www.brtech.com.cn）