爬虫常用库的安装

请求库(requests,selenium)、解析库(beautifulsop)、存储库、工具库等

 

urelib   

re

上面这两个是python自带的库

需要自己安装额库:

(在windows下,使用pip install 命令)

requests

selenium用来驱动浏览器,做自动化测试,一些被js渲染的用这个来获取源代码

phantomjs,无界面浏览器,下载,并将phantomjs.exe配置到环境变量

lxml,可以用来进行网页的解析

------------------------------------

beautifulsoup,也是一个网页解析库,并且依赖于lxml库,在安装时需要输入pip3 install beautifulsoup4,导入时使用import bs4  

from bs4 import Beautifulsoup

-------------------------------------

 

pyquery也是一个网页解析库,比beautifulsoup更加方便

一些存储库:

pymysql

pymongo

redis

一些工具库

flask是一个web库,在做一些代理的设置是=时,可  能会用到这个库

django,一个web服务器框架

jupyter,可以理解为一个笔记本,但这个笔记本功能比较强,可以在先运行代码,很多功能,用来写代码或者文档记录很方便

在linux下,使用如下命令即可:

pip3 install requests selenium beautifulsoup4 puquery pymysql pymongo redis flask django jupyter

 

posted @ 2018-06-05 22:13  RongHe  阅读(204)  评论(0编辑  收藏  举报