crawler spec

使用说明

0.写在前面

1.本程序完成的抓取网页并保存其文件的工作。

2.目前的版本还需将工程文件导入eclipse中运行。

3.加载主类MyCrawler生成可执行文件。

4.程序主界面：

1 准备工作

这部分为该程序执行前要做的准备工作。

1.1 本地文件路径

通过本程序抓取下来的html、pdf、doc、ppt、txt等文件分别存在其对应的文件夹内，路径依次为File\html，File\pdf，File\doc，File\ppt，File\txt，其他可下载文件存入File\others

1.2 数据库

数据库内存放各种信息。包括：

1.被抓取网页的类型、编码等信息；

2.文件下载后在本地的存储路径；

3.文件的下载时间记录、更新时间记录、最后一次更新记录。

1.3 数据源

将上述数据库配置到Windows（或Windows server）数据源中，数据库名为yuanhang1617，用户名密码依次为……（这个是由服务器决定的吧？）

2 爬取网页

该部分即为正式爬取过程中的操作方法及程序反馈等。

2.1 确定爬取源地址

在主界面的URL seed中输入源网址，程序将从该网址开始，以广度优先方法依次爬取下一级链接。

2.2 确定爬取数量

在主界面how much pages中输入想要抓取的网页数量，该程序最终将会抓取这么多的网页及其内部信息。

2.3 开启的爬取线程数

在the number of thread中输入想要开启的爬取线程数。

3 爬取反馈

本部分向用户阐明在抓取网页过程中对于该程序执行情况的反馈。

3.1 爬取内容

在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、最后爬取的100条URL。

3.2 结果反馈

在本地File路径下为爬取结果下载的文件内容，包含html、pdf、doc、ppt、txt等文件。

在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。

posted on 2013-11-06 12:17 远航1617 阅读(188) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

远航1617