爬虫从入门到放弃 - 纯新手学习-爬虫基本数据库安装
1.安装好前期必备的库 - requests 向网页发出请求
解释器自带的urllib 和re
selenium 用于向有js渲染的网页发起请求
from selenium import webdriver
driver = webdriver.Chrome() # 生成一个driver对象,并打开谷歌浏览器
driver.get('https://www.baidu.com') # 打开百度网页
driver.page_source 查看网页的源代码,可以拿到渲染的页面源代码
selenium需要打开网页,不方便
from selenium import webdriver
driver = webdriver.PhantomJS() # 生成一个driver对象
driver.get('https://www.baidu.com') # 期间不产生任何打开网页的操作
driver.page_source 查看网页的源代码
2.lxml库
pip3 install lxml
也可以去python官网下载whl文件,下载好的文件链接,whl结尾的用pip3 install 链接 直接安装
3.beautifulsoup 也是一个网页解析库
依赖于lxml,也就是要先安装lxml这个库
pip3 install beautifulsoup4 表示安装beautifulsoup第四个版本
>>> from bs4 import BeautifulSoup # 导入BeautifulSoup
>>> soup = BeautifulSoup('(html)(/html)','lxml')
为什么是bs4,因为别人写模块的时候定义了一个包就叫ps4,里卖弄存放着这个模块。可以去官网查看源代码
4.pyquery 解析库
pip3 install pyquery
>>> from pyquery import PyQuery as pq
>>> doc = pq('(html)hello(/html)')
>>> result = doc('html').text() 可以查看标签对应的内容
总结:上面都是一些解析库,下面介绍一些存储库
5.pymysql 操作mysql的库
pip3 install pymysql
6 pymongo
pip3 install pymongo # pymongo 是对mongodb数据库的操作
7 redis 分布式爬虫抓取队列时用
pip3 install redis
8 flask web库 代理的获取存储接口
pip3 install flask
9.django
pip3 install django
10.jupyter
pip3 install jupyter
jupyter notebook # 直接在命令行输入。弹出一个浏览器,显示当时运行的文件,可以新建文件
可以在线运行代码,用的python解释器