Fork me on GitHub
摘要: 前面我们介绍了scrapy爬虫防屏蔽的技巧,前面用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施来达到防屏蔽的效果。然而官方文档还提到了利用Google cache和第三方平台crawlera来做爬虫防屏蔽。本文章着重介绍下利用第三方平台crawlera来避免爬虫被ban的具体方法。 阅读全文
posted @ 2015-06-16 23:33 秋楓 阅读(17813) 评论(11) 推荐(2) 编辑
摘要: 如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运行多个spider。 阅读全文
posted @ 2015-06-16 16:27 秋楓 阅读(38520) 评论(11) 推荐(2) 编辑