2020 年 5月 30 日随笔档案 - 她的开呀

2020年5月30日

scrapy中使用selenium+webdriver获取网页源码，爬取简书网站

摘要： scrapy中使用selenium+webdriver获取网页源码，爬取简书网站由于简书中一些数据是通过js渲染出来的，所以通过正常的request请求返回的response源码中没有相关数据，所以这里选择selenium+webdriver获取网页源码 1. 设置需要爬取的数据 import 阅读全文

posted @ 2020-05-30 01:11 她的开呀阅读(1249) 评论(0) 推荐(0) 编辑

scrapy 使用下载器中间件设置随机请求头

摘要： scrapy 使用下载器中间件设置随机请求头 1. 在middlewares.py 中设置下载中间件 import random class UseragentDownloaderMiddleware: # 自定义请求头列表 USER_AGENTS = [ "Mozilla/5.0 (Windows 阅读全文

posted @ 2020-05-30 01:03 她的开呀阅读(541) 评论(0) 推荐(0) 编辑

new 个对象()

公告