2018 年 1月 21 日随笔档案 - outback123

2018年1月21日

摘要：在爬虫爬取过程中，网站会根据我们的IP和UA去确认到底是浏览器操作还是爬虫在操作，所以，为了让爬虫不被网站禁止，随机切换Ip　和UA是很重要的，因为这个类在各个爬虫中经常要用到，所以可以自已维护一份随机切换IP和UA的代码，可以在爬虫工程目录中加入tools这个目录，这个目录中存放着这个爬虫所用到阅读全文

posted @ 2018-01-21 21:38 outback123 阅读(3661) 评论(0) 推荐(0) 编辑

爬取西刺网的免费IP

摘要：在写爬虫时，经常需要切换IP，所以很有必要自已在数据维护库中维护一个IP池，这样，就可以在需用的时候随机切换IP，我的方法是爬取西刺网的免费IP，存入数据库中，然后在scrapy 工程中加入tools这个目录，里面存放一些常用的目录，包括这个免费IP池，具体目录如下： crawl_ip_from_x 阅读全文

posted @ 2018-01-21 21:12 outback123 阅读(364) 评论(0) 推荐(0) 编辑

爬取淘宝高清图片

摘要： 1 def start_requests(self): 2 return [scrapy.Request(url="https://www.taobao.com/", callback=self 这一步就遇到困难了，因难一，淘宝会不定时跳转到登录页面。我尝试了很多方法都没有完成淘宝的登录，这个后续要阅读全文

posted @ 2018-01-21 20:01 outback123 阅读(4756) 评论(0) 推荐(0) 编辑

Outback

公告