Scrapy框架爬取HTTP/2网站

scrapy本身是自带支持HTTP2的爬取:

https://docs.scrapy.org/en/latest/topics/settings.html?highlight=H2DownloadHandler#download-handlers-base

需要把这个包安装一下

# 本身scrapy就是基于Twisted的,http2是一个拓展包
Twisted[http2] >=17.9.0

然后在settings.py中打开下载处理器

DOWNLOAD_HANDLERS = {
    "https": "scrapy.core.downloader.handlers.http2.H2DownloadHandler",
}

另外可以使用其他支持HTTP2的模块来利用中间件加载并返回数据,如:httpx,curl_ciff

posted @ 2023-07-17 11:47  蕝戀  阅读(130)  评论(0编辑  收藏  举报