Docker部署Scrapy-redis分布式爬虫框架（整合Selenium+Headless Chrome网页渲染）

前言

我的京东价格监控网站需要不间断爬取京东商品页面，爬虫模块我采用了Scrapy+selenium+Headless Chrome的方式进行商品信息的采集。

由于最近爬虫用的服务器到期，需要换到新服务器重新部署，所以干脆把整个模块封装入Docker，以便后续能够方便快速的进行爬虫的部署。同时，由于我的Scrapy整合了redis，能够支持分布式爬取，Docker化后也更方便进行分布式的拓展。

任务需求

将爬虫代码打包为Docker镜像
在全新的服务器上安装Docker
使用单独的Redis容器作为爬取url队列（也就是Scrapy-redis中redis的主要用处）
所有新开的爬虫容器连接Redis容器

步骤

打包爬虫代码

Scrapy内置的crawler不支持页面渲染的方式进行页面渲染，需要使用scrapy-splash或者selenium作为中间件，才能够支持页面渲染爬取。我在代码中整合了selenium，并在系统中安装了chrome，这在docker中，需要在打包时将chrome安装至镜像中。

Dockerfile文件中，将chrome下载并安装至镜像，并且将chromedriver放入系统，保证selenium代码能够调用到chrome。

我参考了开源库：https://github.com/joyzoursky/docker-python-chromedriver

最后完成的Dockerfile文件：

FROM python:3.6

# install google chrome
RUN wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | apt-key add -
RUN sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list'
RUN apt-get -y update
RUN apt-get install -y google-chrome-stable

# install chromedriver
RUN apt-get install -yqq unzip
RUN wget -O /tmp/chromedriver.zip http://chromedriver.storage.googleapis.com/`curl -sS chromedriver.storage.googleapis.com/LATEST_RELEASE`/chromedriver_linux64.zip
RUN unzip /tmp/chromedriver.zip chromedriver -d /usr/local/bin/

# set display port to avoid crash
ENV DISPLAY=:99

# copy pm_scrapy
WORKDIR /usr/src/app
COPY . .

# install requirements
RUN pip install -r requirements.txt

CMD scrapy crawl JDcate

写完Docker文件，在打包前，最好还要加上.dockerignore避免吧没用的文件打包进镜像。

我打包的代码结构图如下：

在这里插入图片描述

使用命令，生成镜像：

 sudo docker image build -t pm_scrapy .

REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
pm_scrapy           latest              082e7e350831        47 hours ago        1.41 GB
proxy_pool          latest              83a95913162b        6 days ago          1.01 GB
python              3.6                 749d36d00e00        10 days ago         921 MB
redis               latest              5d2989ac9711        10 days ago         95 MB

1.41G，大的吓人。

运行redis容器

镜像打包好之后，别急着运行，因为新服务器上，Redis还没有呢。

原则上来说，你可以使用docker-compose，把redis和爬虫代码两个镜像同时运行起来。

我这里，我将redis开启单独的镜像，一是为了方便其它模块使用redis，二是方便以后开更多的scrapy进行分布式爬取。

使用官方的redis镜像开启redis容器，并将redis端口映射到宿主机6379：

docker run -p 6379:6379  -d redis --requirepass "密码"

官方的redis设置中默认就是0.0.0.0，不用担心宿主机无法访问。

连接爬虫容器和redis容器

接下来可以运行爬虫容器，需要注意的是，连接两个容器，需要使用link。

首先找到redis容器的ID，或者你给他自定义的名字

在这里插入图片描述

接着运行并连接容器：

sudo docker container run -itd --link 00c2655515fb:redis pm_scrapy

出现问题：Docker 使用--link出现Cannot link to /xxx, as it does not belong to xxxxx异常

这个异常的原因是redis在一个特殊的网络里，你需要用：

docker inspect [需要link的容器名称或ID]

来查看redis容器所在的网段。

同时还可以看看

docker network ls

在这里插入图片描述

之后你就需要类似这样的语句（多指定--net来定下容器所在网络）：

docker run -d --name movie_project -p 9090:80 --link 容器名:别名 --net link_continer_network -v /root/project/movie_project:/app:Z python2/nginx/flask

参考：

https://blog.csdn.net/hanchaobiao/article/details/81911587
https://www.jianshu.com/p/21d66ca6115e

跑代码

一切就绪，发现爬虫没法运行，使用docker logs 容器ID查看log。发现问题

出现问题：headless chrome：DevToolsActivePort file doesn't exist while trying to initiate Chrome Browser

这个问题参考下面的网址，这里直接给出解决方案，在你的代码里加一行参数：

chrome_options.add_argument('--disable-dev-shm-usage')

这是我的代码截图：

在这里插入图片描述

参考：

https://stackoverflow.com/questions/50642308/org-openqa-selenium-webdriverexception-unknown-error-devtoolsactiveport-file-d/50642913#50642913

对该容器的日常维护

平日里可以使用docker exec -it 21323a52d19f /bin/bash进入正在运行容器的bash，查看下爬虫状态

关注我

本人目前为后台开发工程师，主要关注Python爬虫，后台开发等相关技术。

原创博客主要内容：

笔试面试复习知识点手册
Leetcode算法题解析（前150题）
剑指offer算法题解析
Python爬虫相关实战
后台开发相关实战

同步更新以下几大博客：

Csdn：

http://blog.csdn.net/qqxx6661

拥有专栏：Leetcode题解（Java/Python）、Python爬虫开发

知乎：

https://www.zhihu.com/people/yang-zhen-dong-1/

拥有专栏：码农面试助攻手册

掘金：

https://juejin.im/user/2119514149109095

简书：

https://www.jianshu.com/u/b5f225ca2376

个人公众号：Rude3Knife

在这里插入图片描述

posted @ 2020-08-12 21:18 蛮三刀酱阅读(586) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？
· 使用C#创建一个MCP客户端

公告

昵称：蛮三刀酱
园龄： 4年8个月
粉丝： 69
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

蛮三刀酱

技术公众号：后端技术漫谈生活公众号：蛮三刀酱

Docker部署Scrapy-redis分布式爬虫框架（整合Selenium+Headless Chrome网页渲染）

前言

任务需求

步骤

打包爬虫代码

运行redis容器

连接爬虫容器和redis容器

出现问题：Docker 使用--link出现Cannot link to /xxx, as it does not belong to xxxxx异常

跑代码

出现问题：headless chrome：DevToolsActivePort file doesn't exist while trying to initiate Chrome Browser

对该容器的日常维护

关注我

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

技术公众号：后端技术漫谈 生活公众号：蛮三刀酱

前言

任务需求

步骤

打包爬虫代码

运行redis容器

连接爬虫容器和redis容器

出现问题：Docker 使用--link出现Cannot link to /xxx, as it does not belong to xxxxx异常

跑代码

出现问题：headless chrome：DevToolsActivePort file doesn't exist while trying to initiate Chrome Browser

对该容器的日常维护

关注我

公告

搜索

常用链接

合集

随笔档案

技术公众号：后端技术漫谈生活公众号：蛮三刀酱