2015 年 6月 16 日随笔档案 - 秋楓

2015年6月16日

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

摘要：前面我们介绍了scrapy爬虫防屏蔽的技巧，前面用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施来达到防屏蔽的效果。然而官方文档还提到了利用Google cache和第三方平台crawlera来做爬虫防屏蔽。本文章着重介绍下利用第三方平台crawlera来避免爬虫被ban的具体方法。阅读全文

posted @ 2015-06-16 23:33 秋楓阅读(17813) 评论(11) 推荐(2) 编辑

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）

摘要：如果我们有10个定制的spider，甚至更多。此时我们怎么快速地让这些spider运行起来呢？通过shell脚本是一种方式，官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙，同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运行多个spider。阅读全文

posted @ 2015-06-16 16:27 秋楓阅读(38520) 评论(11) 推荐(2) 编辑

一葉知秋

知道可以做什么样的人，是成长的基础。

公告