爬虫常用模块

 

请求库

urllib

requests

安装

pip install requests

get请求

import requests
ret=requests.get('https://api.github.com')
print(type(ret))
print(ret.status_code)
print(type(ret.text))
print(ret.cookies)

 数据

import requests
data={
    'name':'germey',
    'age':22
}
ret=requests.get('https://httpbin.org/get',params=data)
print(ret.text)

  

 

selenium

1.驱动浏览器的

2.自动化测试

 

chromedriver

https://chromedriver.chromium.org/

http://chromedriver.storage.googleapis.com/index.html

1.驱动浏览器

1.放到pip同级

 phantomjs

下载 https://phantomjs.org/download.html

添加环境变量

1.无界面浏览器

 解析库

lxml

1.xpath解析

beatifulsoup4

引入from bs4 import beautifulsoup

1.html解析库

 

 tesserocr

參考https://www.cnblogs.com/Jimc/p/9772930.html

pyquery

1.解析库

 

 存储库

pymysql

 

 

pymongo

 

redis

 

 

jupyter

打开 jupyter notebook

1.记事本

2.运行脚本 ctrl+回车   运行

3.增加一行,按b,  删除一行按d

 splash

 地址 https://github.com/scrapinghub/splash

数据库

 

web库

flask

web库

django

web服务框架

爬虫框架

scrapy

 

posted @ 2019-08-08 14:33  jiuchen  阅读(254)  评论(0编辑  收藏  举报