scrapy框架使用splash渲染引擎爬取动态页面

1.启动docker,在命令行里输入

docker run -p 8050:8050 scrapinghub/splash

在docker上运行splash引擎
2.接下来就可以来写爬虫文件了
首先在setting里配置

splash_url='http://loaclhost:8050'
DUPEFLITER='scrapy_splash.SplashAwareDupeFilter'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware':723,
    'scrapy_splash.SplashMiddleware':725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':810
}

同时启用pileline
3.在写spider文件时,在开头加入

from scrapy_splash import SplashRequest

我们就使用SplashReqeust方法来将我们要解析的页面提交给splash引擎的

posted @   ayang818  阅读(244)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Linux系统下SQL Server数据库镜像配置全流程详解
· 现代计算机视觉入门之:什么是视频
阅读排行:
· Sdcb Chats 技术博客:数据库 ID 选型的曲折之路 - 从 Guid 到自增 ID,再到
· .NET Core GC压缩(compact_phase)底层原理浅谈
· Winform-耗时操作导致界面渲染滞后
· Phi小模型开发教程:C#使用本地模型Phi视觉模型分析图像,实现图片分类、搜索等功能
· 语音处理 开源项目 EchoSharp
点击右上角即可分享
微信分享提示