Fork me on GitHub
摘要: 现在很多网站设置了禁止爬虫抓取的策略,那如何让你的scrapy爬虫不在被禁用呢?本文章主要通过一系列的策略做到尽可能避免爬虫被ban。抓取的时候使用随机的user agent、禁用cookies、随机切换代理IP和下载延迟等等的策略来避免网站的反爬虫。 阅读全文
posted @ 2015-06-14 22:50 秋楓 阅读(40009) 评论(21) 推荐(15) 编辑