摘要: 去重 内置去重 scrapy默认会对url进行去重,使用的去重类是 ,看一下源码流程 因为'http://www.baidu.com?k1=1&k2=2'和'http://www.baidu.com?k2=2&k1=1'应该是同一个请求,但是如果单纯地把url或者url的md5值放到集合中肯定是有问 阅读全文
posted @ 2018-08-16 17:20 龙云飞谷 阅读(3367) 评论(0) 推荐(0) 编辑
摘要: 介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。理解scrapy可以参考django,django框架是用帮助我们快速开发web程序的,而scrapy框架就是用来帮助我们快速抓取网页信息的。 安装 整体架构 在 阅读全文
posted @ 2018-08-16 14:01 龙云飞谷 阅读(151) 评论(0) 推荐(0) 编辑