摘要: scrapy中使用selenium+webdriver获取网页源码,爬取简书网站 由于简书中一些数据是通过js渲染出来的,所以通过正常的request请求返回的response源码中没有相关数据, 所以这里选择selenium+webdriver获取网页源码 1. 设置需要爬取的数据 import 阅读全文
posted @ 2020-05-30 01:11 她的开呀 阅读(1249) 评论(0) 推荐(0) 编辑
摘要: scrapy 使用下载器中间件设置随机请求头 1. 在middlewares.py 中设置下载中间件 import random class UseragentDownloaderMiddleware: # 自定义请求头列表 USER_AGENTS = [ "Mozilla/5.0 (Windows 阅读全文
posted @ 2020-05-30 01:03 她的开呀 阅读(541) 评论(0) 推荐(0) 编辑