摘要: ## 前言可能对于绝大多数的同学,或者比如我来说,爬虫就是模拟Http请求去获取网页上想获取的内容,这当然是爬虫最最基本的原理描述。但是对于一个可以平稳运行、持续运行的爬虫来说,他的原理可以这样描述:现有一个种子站点,通过对种子站点的爬虫,获取到种子站点的a链接,将这时获取的url先进行比对是否为已经访问的链接,如果否就放入待爬任务队列。这样想来,一个可以持续平稳运行的爬虫大概要具有如下基本特征:... 阅读全文
posted @ 2018-06-22 16:37 张建wechatmedia.top 阅读(289) 评论(2) 推荐(2) 编辑
returnTop