Python—安装跟爬虫相关的包
舆情爬虫分析:
硬件: 4台服务器,分别放redis、python爬虫、mysql和 kafka四大板块。
软件:
1. mysql
2. redis #leap1 /usr/bin/redis-cli /usr/bin/redis-server redis 3.1.103 64 bit
3. python2.7.14+ 第三方插件:
redis
scrapy
scrapyd
scrapyd-client
scrapy_redis
lxml
4. kafka #leap1 /usr/leap/3.4.3.1/kafka/usr/lib/kafka/bin/kafka
5. proxies: 阿布云购买"HTTP隧道",通行证书和通行密钥 【IP资源池】
Scrapy-redis的安装和使用
Scrapy-Redis是Scrapy的分布式扩展模块,有了它,我们就可以方便地实现Scrapy分布式爬虫的搭建。
GitHub:https://github.com/rmax/scrapy-redis
PyPI:https://pypi.python.org/pypi/scrapy-redis
官方文档:http://scrapy-redis.readthedocs.io
一、安装Scrapy-Redis
pip3 install scrapy-redis
也可以下载wheel文件安装https://pypi.python.org/pypi/scrapy-redis#downloads
测试:
import scrapy_redis #不报错即可
PS:pip install scrapy-redis -i https://pypi.tuna.tsinghua.edu.cn/simple/ #安装python第三方插件:scrapy-redis
其他包,都用pip安装即可。