摘要: 简介 1:组成:爬虫节点,控制节点和资源库。 控制节点,也叫中央控制器,主要负责根据url地址分配线程,并调用爬虫节点进行具体的爬行。 爬虫节点会按照具体的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后会将结果储存到对应资源库中。 2:类型:通用网络爬虫,聚焦网络爬虫, 阅读全文
posted @ 2019-01-24 11:04 杨守鹤 阅读(366) 评论(4) 推荐(1) 编辑