摘要: 在进行爬虫的过程当中,我们经常会遇到被封IP的情况,因此我们可以搜集一些代理IP,然后使用程序去测试哪些代理IP是可用的,我在这里使用了请求如下网站的方法: http://icanhazip.com/ 请求这个网站之后,如果请求成功,没有遇到异常,就会返回当前你请求这个网站的IP地址。同时保存到一个 阅读全文
posted @ 2021-02-08 19:49 Geeksongs 阅读(871) 评论(0) 推荐(0) 编辑
摘要: 要想将我们爬取到的文件的数据进行持久化操作,那么在Scrapy下有两种方式, 1.基于终端指令的数据持久化 要求:只能将parse方法的返回值储存到文本文件当中 注意:持久化文本文件的类型只能够为csv,json.xml等,不能够为txt,excel 指令使用: scrapy crawl xxx(爬 阅读全文
posted @ 2021-02-08 07:08 Geeksongs 阅读(120) 评论(0) 推荐(0) 编辑

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.