爬虫常用模块

请求库

urllib

requests

安装

pip install requests

get请求

import requests
ret=requests.get('https://api.github.com')
print(type(ret))
print(ret.status_code)
print(type(ret.text))
print(ret.cookies)

　数据

import requests
data={
    'name':'germey',
    'age':22
}
ret=requests.get('https://httpbin.org/get',params=data)
print(ret.text)

selenium

1.驱动浏览器的

2.自动化测试

chromedriver

https://chromedriver.chromium.org/

http://chromedriver.storage.googleapis.com/index.html

1.驱动浏览器

1.放到pip同级

phantomjs

下载 https://phantomjs.org/download.html

添加环境变量

1.无界面浏览器

解析库

lxml

1.xpath解析

beatifulsoup4

引入from bs4 import beautifulsoup

1.html解析库

tesserocr

參考https://www.cnblogs.com/Jimc/p/9772930.html

pyquery

1.解析库

存储库

pymysql

pymongo

redis

jupyter

打开 jupyter notebook

1.记事本

2.运行脚本 ctrl+回车运行

3.增加一行，按b, 删除一行按d

splash

地址 https://github.com/scrapinghub/splash

数据库

web库

flask

web库

django

web服务框架

爬虫框架

scrapy

posted @ 2019-08-08 14:33 jiuchen 阅读(255) 评论(0) 编辑收藏举报

九尘

爬虫常用模块

请求库

urllib

requests

selenium

chromedriver

phantomjs

解析库

lxml

beatifulsoup4

tesserocr

pyquery

存储库

pymysql

pymongo

redis

jupyter

splash

数据库

web库

flask

django

爬虫框架

scrapy

公告