摘要: #### 下载中间件的用途 这个下载中间件,有两个用途,一个处理请求,一个处理响应 ### 下载中间件 添加随机UA, #### 在setting里面设置一个随机ua的列表, #### ### 注意一定要实现这个process_request方法,这个是在请求之前加一些处理, 如果是实现的proce 阅读全文
posted @ 2021-07-25 21:34 技术改变命运Andy 阅读(133) 评论(0) 推荐(0) 编辑
摘要: #### scrapy模拟登陆1 使用cookie登陆 有些网站的cookie过期时间很长,比如一些小网站, 我们可以保存这个cookie,然后携带cookie登陆, 如果操作: 思考,这个start_urls是谁发起的? 这个是在爬虫继承的父类,spider里面,有一个start_requests 阅读全文
posted @ 2021-07-25 21:12 技术改变命运Andy 阅读(596) 评论(0) 推荐(0) 编辑
摘要: ### 在Scrapy基础——Spider中。Spider基本上能做很多事情了,但是如果你想爬取一个网站的全站的话,你可能需要一个更强大的武器。CrawlSpider基于Spider,但是可以说是为全站爬取而生。 ## 生成一个crawlspider的爬虫: 命令:scrapy genspider 阅读全文
posted @ 2021-07-25 20:52 技术改变命运Andy 阅读(614) 评论(0) 推荐(0) 编辑
摘要: ### 爬虫解决翻页问题 import scrapy class Spider1Spider(scrapy.Spider): name = 'spider1' allowed_domains = ['17k.com'] start_urls = ['https://www.17k.com/all/b 阅读全文
posted @ 2021-07-25 19:18 技术改变命运Andy 阅读(113) 评论(0) 推荐(0) 编辑