摘要: 在爬虫爬取过程中,网站会根据我们的IP和UA去确认到底是浏览器操作还是爬虫在操作,所以,为了让爬虫不被网站禁止,随机切换Ip 和UA是很重要的,因为这个类在各个爬虫中经常要用到,所以可以自已维护一份随机切换IP和UA的代码, 可以在爬虫工程目录中加入tools这个目录,这个目录中存放着这个爬虫所用到 阅读全文
posted @ 2018-01-21 21:38 outback123 阅读(3661) 评论(0) 推荐(0) 编辑
摘要: 在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools这个目录,里面存放一些常用的目录,包括这个免费IP池,具体目录如下: crawl_ip_from_x 阅读全文
posted @ 2018-01-21 21:12 outback123 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 1 def start_requests(self): 2 return [scrapy.Request(url="https://www.taobao.com/", callback=self 这一步就遇到困难了,因难一,淘宝会不定时跳转到登录页面。我尝试了很多方法都没有完成淘宝的登录,这个后续要 阅读全文
posted @ 2018-01-21 20:01 outback123 阅读(4756) 评论(0) 推荐(0) 编辑