随笔 - 214  文章 - 12  评论 - 40  阅读 - 38万

Python项目实践--环境准备03 Scrapy + Selenium Chrome工作环境

一、虚拟环境

mkvirtualenv --python=/usr/local/bin/python3  scrapy
workon scrapy

二、安装Scrapy

pip install scrapy

三、Scrapy终端

pip install ipython
 
Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。
该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。
一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。
 
调试问题
scrapy shell 503错误,可以加参数修改agent
scrapy shell -s USER_AGENT='Mozilla/5.0' "http://www.data5u.com/"

四、Scrapy操作mysql数据库

pip install pymysql
pip install sqlalchemy

五、安装Selenium

pip install selenium

六、安装chromedriver

chromedriver获取地址:http://npm.taobao.org/mirrors/chromedriver/

根据平台选择安装chromedriver并移动至系统目录下,如/usr/local/bin

运行"chromedriver"检测是否安装成功。

七、Centos7安装Chrome

参考文章
https://solicomo.com/linux/headless-chrome-on-centos7.html

1、下载

https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

2、安装

    yum install ./google-chrome-stable_current_x86_64.rpm
    或者
    yum install google-chrome-stable
    
    查看版本
    google-chrome-stable  --no-sandbox —version

3、安装chromedriver

    http://npm.taobao.org/mirrors/chromedriver/
    放到/opt/google/chrome下
    $ ln -s /opt/google/chrome/chromedriver /usr/bin/

4、安装字体库

    yum install libXfont xorg-x11-fonts* -y

 

 
 
 


posted on   麦克煎蛋  阅读(288)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示