linux chrome 安装过程记录
最近,由于公司需要做爬虫抓取一些新闻,在开发过程中,发现有些网站有一定的反爬措施,通过浏览器访问一切正常,通过其他方式,包括:curl,urlconnection 等,就算加入了cookie,agent等参数也不能完全正常访问,导致爬取失败。
经过网上查找资料,找到解决方案,
对于这种特殊的网站,爬取方式改为通过程序在服务器端打开浏览器,访问地址,然后解析入库。
过程中需要用到chrome浏览器和chromedriver来实现
其中,chrome浏览器支持无界面访问网站,chromedriver,提供java,python,php等语言调用chrome的能力。
现将安装过程记录如下(基于centos6.5,centos7.2 亲测成功):
一、安装chrome
1. 下载安装脚本,
在下载目录中,执行以下命令,将安装脚本下载到本地
wget https://intoli.com/install-google-chrome.sh
2.然后授予可执行权限
chmod 755 ./install-google-chrome.sh
3.执行脚本
./install-google-chrome.sh
安装脚本会自动下载、安装chrome(合适的版本),并且目前两个系统中,所缺少的依赖,都会被安装。
4.测试安装结果
执行命令, google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com/
如果在当前文件夹中出现screenshot.png 则安装成功
二、安装chromedriver
1.切换到 chrome安装路径 (个人习惯,实际上在什么目录都可以)
cd /opt/google/
2.下载文件包
wget https://npm.taobao.org/mirrors/chromedriver/75.0.3770.90/chromedriver_linux64.zip
3.解压文件包
unzip chromedriver_linux64.zip
解压后,在/opt/google/ 会多出一个文件chromedriver
4.连接文件
ln -s /opt/google/chromedriver /usr/bin/chromedriver
执行以上命令后,安装成功
如果文件下载失败,可以下载传上服务器
地址是
https://files.cnblogs.com/files/suntray/install-google-chrome.sh.zip (安装脚本)
https://files.cnblogs.com/files/suntray/chromedriver_linux64.zip (驱动文件)