随笔档案「2021年7月25日」：scrapy框架使用-下载中间件，在下载中间件... - 技术改变命运Andy

2021年7月25日

scrapy框架使用-下载中间件，在下载中间件里面，添加随机UA，添加随机代理ip，这个很重要

摘要： #### 下载中间件的用途这个下载中间件，有两个用途，一个处理请求，一个处理响应 ### 下载中间件添加随机UA， #### 在setting里面设置一个随机ua的列表， #### ### 注意一定要实现这个process_request方法，这个是在请求之前加一些处理，如果是实现的proce 阅读全文

posted @ 2021-07-25 21:34 技术改变命运Andy 阅读(188) 评论(0) 推荐(0)

scrapy框架使用-模拟登陆，使用cookie登陆，使用post登陆，使用selenium模拟登陆

摘要： #### scrapy模拟登陆1 使用cookie登陆有些网站的cookie过期时间很长，比如一些小网站，我们可以保存这个cookie，然后携带cookie登陆，如果操作：思考，这个start_urls是谁发起的？这个是在爬虫继承的父类，spider里面，有一个start_requests 阅读全文

posted @ 2021-07-25 21:12 技术改变命运Andy 阅读(738) 评论(0) 推荐(0)

scrapy框架使用-crawlspider类，rule的使用，翻页功能，

摘要： ### 在Scrapy基础——Spider中。Spider基本上能做很多事情了，但是如果你想爬取一个网站的全站的话，你可能需要一个更强大的武器。CrawlSpider基于Spider，但是可以说是为全站爬取而生。 ## 生成一个crawlspider的爬虫：命令：scrapy genspider 阅读全文

posted @ 2021-07-25 20:52 技术改变命运Andy 阅读(765) 评论(0) 推荐(0)

2scrapy框架使用-翻页，使用MongoDB存储，使用meta传递数据，items的使用，pipeline的深度使用

摘要： ### 爬虫解决翻页问题 import scrapy class Spider1Spider(scrapy.Spider): name = 'spider1' allowed_domains = ['17k.com'] start_urls = ['https://www.17k.com/all/b 阅读全文

posted @ 2021-07-25 19:18 技术改变命运Andy 阅读(161) 评论(0) 推荐(0)