摘要:
scrapy中使用selenium+webdriver获取网页源码,爬取简书网站 由于简书中一些数据是通过js渲染出来的,所以通过正常的request请求返回的response源码中没有相关数据, 所以这里选择selenium+webdriver获取网页源码 1. 设置需要爬取的数据 import 阅读全文
摘要:
scrapy 使用下载器中间件设置随机请求头 1. 在middlewares.py 中设置下载中间件 import random class UseragentDownloaderMiddleware: # 自定义请求头列表 USER_AGENTS = [ "Mozilla/5.0 (Windows 阅读全文