2010 年 1月 23 日随笔档案 - 海军

2010年1月23日

摘要：问题是对某一网站或所有网站进行抓取，即下载所有网页。怎么实现呢？先将问题最小化（转化的思想，转化为小规模，可以解决的问题）：如果只有一个网页，怎么下载？问题变地很简单，只要用WebClient/WebRequest（甚至OpenFileDialog都可以）打开Url地址，将数据流存入本地存储器的文件（以相应的扩展名作为扩展名）即可。示例代码如下：string BoardStream;//下载内容存... 阅读全文

posted @ 2010-01-23 17:38 海军阅读(451) 评论(0) 推荐(0) 编辑

蜘蛛/爬虫程序的多线程控制（C#语言）

摘要：在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。只是它存在一个效率问题，下载速度可能很慢。这是两方面的原因造成的：1. 分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作（C#语言）》中已经介绍了爬虫程序的两个步骤：分析和下载。在单线程的程序中，两者是无法同时进行的。也就是说，分析时会造成网络空闲，分析的时间越长，下载的效率越低。反之也是... 阅读全文

posted @ 2010-01-23 02:03 海军阅读(502) 评论(0) 推荐(0) 编辑

公告