摘要: 基本架构:调度器,url管理器,网页下载器,网页解析器 调度器:启动爬虫,关闭爬虫,监视爬虫的进度 url管理器:管理待爬取的URL和已爬取的URL 需要支持:添加新URL到待爬取集合 判断待添加URL是否已经被爬取 获取待爬取URL,判断是否还有带爬取的URL 被爬取之后将该URL从待爬取集合移动 阅读全文
posted @ 2017-08-02 18:30 HHello_World 阅读(247) 评论(0) 推荐(0) 编辑