linux配置爬虫环境

#宝塔面板安装python3

复制代码
#安装依赖包
yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
#下载 Python3
wget https://www.python.org/ftp/python/3.7.7/Python-3.7.7.tar.xz
#创建文件夹
mkdir /usr/local/python3 
#解压编译安装
tar -xvJf  Python-3.7.7.tar.xz
cd Python-3.7.7
./configure --prefix=/usr/local/python3
make && make install
#给个软链
ln -s /usr/local/python3/bin/python3 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
复制代码

#安装Chrome

1
sudo yum localinstall google-chrome-stable_current_x86_64.rpm

#更换pip源

1
-i https://pypi.tuna.tsinghua.edu.cn/simple/

#下载并安装Chromedriver

http://npm.taobao.org/mirrors/chromedriver/2.41/chromedriver_linux64.zip

解压后上传到usr/bin目录下

*可选:给予执行权限,

chmod +x /usr/bin/chromedriver

#安装phantomjs

 http://phantomjs.org/download.html官网下载文件,

本地解压后文件夹重命名成 phantomjs,然后通过宝塔上传到服务器的 usr/local 目录,

yum -y install fontconfig #安装依赖环境
ln -s /usr/local/phantomjs/bin/phantomjs /usr/bin/  #建立软连接

 #报错:unknown error: DevToolsActivePort file doesn't exist

Linux下使用root账户操作Chrome,需要增加一些设置

from selenium.webdriver.chrome.options import Options
from selenium import webdriver
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage') #让Chrome在root权限下跑
chrome_options.add_argument('--headless') #不用打开图形界面
browser = webdriver.Chrome(chrome_options=chrome_options)

 #报错:Max retries exceeded with url

requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数
s = requests.session()
s.keep_alive = False # 关闭多余连接
s.get(url) # 你需要的网址

 #putty连接容易断开,命令执行中断

可以使用screen

yum install screen

然后执行 -S [窗口名字] 就可以新建命令窗口,独立运行,客户端断开也不影响命令执行

screen -S david

再次连接上服务器,继续操作刚刚的窗口

screen -ls #列出所有窗口
screen -r 12865 #重新连接指定窗口

 

posted @   平底斜  阅读(478)  评论(0编辑  收藏  举报
编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
点击右上角即可分享
微信分享提示