2012 年 11月 6 日随笔档案 - 百年coding

随笔 - 51 文章 - 0 评论 - 96 阅读 - 19万

2012年11月6日

摘要：爬虫技术文档一、爬虫的运行效果首先爬虫工作时要对初始爬取的URL进行输入，点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完，并且将要爬取的队列为空时，爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。爬取时，爬虫界面显示：当前开的线程数，工作的线程数，爬取过的URL地址。下载的各个类的文件数量，和网页数。爬虫爬取到的数据文件都放到一个固定的地址。二、爬虫构成的几个重要包 1、crawler包：是爬虫的main函数所在，所有功能最后的集成，效果的展现都由这个类来体现。具体的就是执行爬虫的工作步骤。 2、queue包：主要工作是对URL进行处理，包含两个队列，一个是已经爬取过阅读全文

posted @ 2012-11-06 12:57 百年coding 阅读(251) 评论(0) 推荐(0) 编辑

scrum 11.5

摘要：阅读全文

posted @ 2012-11-06 01:00 百年coding 阅读(210) 评论(2) 推荐(0) 编辑

昵称：百年coding
园龄： 12年5个月
粉丝： 39
关注： 10

+加关注

2025年3月

日

一

二

三

四

五

六

搜索

常用链接

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论