摘要:
爬虫技术文档一、爬虫的运行效果首先爬虫工作时要对初始爬取的URL进行输入,点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完,并且将要爬取的队列为空时,爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。爬取时,爬虫界面显示:当前开的线程数,工作的线程数,爬取过的URL地址。下载的各个类的文件数量,和网页数。爬虫爬取到的数据文件都放到一个固定的地址。二、爬虫构成的几个重要包 1、crawler包: 是爬虫的main函数所在,所有功能最后的集成,效果的展现都由这个类来体现。具体的就是执行爬虫的工作步骤。 2、queue包: 主要工作是对URL进行处理,包含两个队列,一个是已经爬取过 阅读全文
摘要:
阅读全文