爬虫常用模块
请求库
urllib
requests
安装
pip install requests
get请求
import requests ret=requests.get('https://api.github.com') print(type(ret)) print(ret.status_code) print(type(ret.text)) print(ret.cookies)
数据
import requests data={ 'name':'germey', 'age':22 } ret=requests.get('https://httpbin.org/get',params=data) print(ret.text)
selenium
1.驱动浏览器的
2.自动化测试
chromedriver
https://chromedriver.chromium.org/
http://chromedriver.storage.googleapis.com/index.html
1.驱动浏览器
1.放到pip同级
phantomjs
下载 https://phantomjs.org/download.html
添加环境变量
1.无界面浏览器
解析库
lxml
1.xpath解析
beatifulsoup4
引入from bs4 import beautifulsoup
1.html解析库
tesserocr
參考https://www.cnblogs.com/Jimc/p/9772930.html
pyquery
1.解析库
存储库
pymysql
pymongo
redis
jupyter
打开 jupyter notebook
1.记事本
2.运行脚本 ctrl+回车 运行
3.增加一行,按b, 删除一行按d
splash
地址 https://github.com/scrapinghub/splash
数据库
web库
flask
web库
django
web服务框架
爬虫框架
scrapy