splash介绍及安装_mac
一、splash介绍
Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,基于Python3和Twisted引擎,可以异步处理任务,并发性能好。
由于目前很多的网页通过javascript模式进行交互,简单的爬取网页模式无法应对javascript和ajax网页的爬取,同时通过分析连接请求的方式比较复杂,而通过调用浏览器模拟页面动作模式,无法实现异步和大规模爬取需求,并且scrapy只能抓取静态网页,在这种情况下,产生了splash,scrapy还可以结合splash实现大规模抓取动态网页,以后会详细介绍搭配scrapy的用法。
三、splash的安装
下面只介绍Mac与linux的安装,windows中使用docker会出现很多未知错误
3. 安装完,打开docker,会看到顶部状态栏出现鲸鱼图标
4. 第一次点击,会提示安装成功,点击got it可以关闭窗口
5、打开终端,使用docker --version查看版本
6、由于国内网络问题,有些docker镜像拉取很慢,所以需要配置国内镜像源,点击🐳图标-> Perferences... -> Daemon -> Registry mirrors,可以使用网易的镜像地址:http://hub-mirror.c.163.com
7、配置完成之后,就可以正式安装splash了,终端输入以下命令进行安装
docker pull scrapinghub/splash
8、等待安装完成,需要启动我们的splash才能使用
docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash
9、启动之后,可以在浏览器访问,并进行渲染测试