爬虫之requests模块

一、爬虫介绍

1、作用

使用程序模拟发送http请求---》得到http响应---》把响应的数据解析出来---》存储起来

2、做爬虫需要掌握的技术

web端爬虫(网页)

-抓包：
        -抓包工具---》浏览器，charles，fiddler。。。
    	-发送http请求的模块
        -requests：同步的---》不仅仅做爬虫用 调用第三方api就可以使用
        -request-html：
        -aiohttp：异步的http模块
       
-解析库：
http响应---》可能是xml，html，json，文件，图片。。。---》响应中解析出想要的数据
        -beautifulsoup4---》xml/html
        -lxml--->xml/html
        -selenium--->请求加解析（本质是模拟浏览器）
        -json

-存储：mysql，redis，es，mongodb。。。。
        -pymysql:aiomysql
         -redis:aioredis
         -elasticsearch.py
         -py-mongo

移动端爬虫(app)

-抓包，发请求，解析，存储跟web一样的
        -对app进行反编译---》jadx
        -安卓：java写的app---》把app反编译成java---》懂java---》看懂逻辑---》使用python模拟这个过程
        -hook技术---》frida
          
        -c语言写加密---》用java调用c语言的加密方式---》xx.so-->动态链接库文件
  			-反编译 so文件---》IDA---》反编译成汇编和c
         -动态调试
    	-python模拟这个过程即可
    
-反扒
    	-请求头反扒：user-agent，referfer：上一个访问的地址是什么
	-反扒：无限调试
        -封ip---》ip代理池
        -封账号---》cookie池
        -js加密---》js逆向

3、动态链接库

# 百度，谷歌 搜索引擎本质其实就是个大爬虫---》不停的在互联网上爬取页面---》存到自己的库中
使用搜索的时候---》去百度的数据库中查询相关的关键字----》显示在页面上---》当我们点击某一个---》真正的跳转到 真正的搜索到的页面

百度做爬取时---》对动态页面的爬取权重要低
seo优化---》保证我们公司的网站通过关键字搜索，显示在第一个
	-伪静态---》
sem：付费买关键词

二、requests模块

1、requests封装

使用requests可以模拟浏览器的请求，比起之前用到的urllib(内置模块)，requests模块的api更加便捷（本质就是封装了urllib3）

注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求

-混合项目---》拿回来的页面---带数据

-分离项目---》拿回来的页面--》数据是空的--》再分析接口---》再发请求才能拿到真正的数据

-看到一个页面有数据---》用requests发送请求---》拿回来的，可能跟看到的不一样

2、快速使用

安装：pip install requests

import requests
res=requests.get('https://www.cnblogs.com/') # res中会有：http响应  响应头的，响应体的
print(res.text) # 响应体的文本字符串（可能会乱码）

三、携带请求参数

1、 get请求携带请求参数

# 方式一：直接拼在后面
res=requests.get('https://www.cnblogs.com/?ordering=-id&search=课程')

# 方式二：使用params参数
res=requests.get('https://www.cnblogs.com/',params={'ordering':'-id','search':'课程'})
print(res.text)

四、url 编码和解码

1、parse 解码与编码

from urllib import parse

# url解码
# res = parse.unquote('%E7%BE%8E%E5%A5%B3')

# url编码
res=parse.quote('刷币')  # %E5%88%B7%E5%B8%81
print(res)

五、携带请求头

1、请求头中可能有的：User-Agent，referer，cookie，Host

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
}
res = requests.get('https://www.sogou.com/web?query=%E7%BE%8E%E5%A5%B3', headers=header)
# res=requests.request('get','url',headers=header)
print(res.text)

六、发送post请求

1、请求体中：两种方式：

data={}--->编码格式urlencoded---》key=value&key=value

json={}---》编码格式是json

res=requests.post('url')

花花手机的登录为例(验证码并没有真正的用上)

data = {
    'username': 'jing@outlook.com',
    'password': '1qazXSW2',
    'captcha': 'xxxx',
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login',
}
res = requests.post('http://www.aa7a.cn/user.php', data=data)
print(res.text)

七、携带cookie

1、cookie的补充

后端签发token，前端保存token到cookie

后端：

序列化类：

class LoginSerializers(serializers.Serializer):
    def validate(self, attrs):
        user = self._get_user(attrs)
        token = self._get_token(user)
        print(user)
        self.context['username'] = user.username
        self.context['token'] = token
        return attrs

    def _get_user(self, attrs):
        pass

    def _get_token(self, user):
        payload = jwt_payload_handler(user)
        token = jwt_encode_handler(payload)
        return token

视图函数：

    def _login(self, request, *args, **kwargs):
        ser = self.get_serializer(data=request.data)
        ser.is_valid(raise_exception=True)
        username = ser.context.get('username')
        token = ser.context.get('token')
        icon = ser.context.get('icon')
        return APIResponse(username=username, token=token, iocn=icon)

前端：

     this.$axios({
        url: this.$settings.BASE_URL + 'user/login/mul_login/',
        method: 'post',
        data: {
          username: this.username,
          password: this.password,
        }
      }).then(response => {
        console.log(response)
        if (response.data.code === 100) {
          let username = response.data.username;
          let token = response.data.token;
          this.$cookies.set('username', username, '7d');
          this.$cookies.set('token', token, '7d');
          this.$emit('success', response.data);

          this.$message({
            message: '登录成功',
            type: 'success',
            duration: 1000,
          });

          this.$router.push('/index')

2、登录的时候请求头中带有cookie

import requests

header = {
    'Cookie': 'ECS_ID=f7a1f8e766253a8afdaf4de7714db1590fe822ec; Hm_lvt_c29657ca36c6c88e02fed9a397826038=1699003304; Qs_lvt_201322=1699003303; __xsptplus422=422.1.1699003342.1699003456.2%234%7C%7C%7C%7C%7C%23%23%23; ECS[username]=jingzhiz%40outlook.com; ECS[user_id]=67693; ECS[password]=d6e63b481ac9a3371c1d6e38129cde70; cto_bundle=FcDjMV80d3BCRXQ5WlMzQnRjJTJGSFpobExSZ3AlMkJkNDBiJTJCSGhSdFlIWnVtQ21Uc0NobFg1UlpNcHlFZEQlMkJVVm9Wakx2WVBQZG9GZ1pPYTBoZVVrWUhPVWxqZ05YYVNnb1JBMiUyQlE0SkFqVkg1YmVEV0QzUVJwMWxTeTNLRzV3VTZqSmZUQm0zQlNLSDQ1UGNyOFV4MDA1ZmRVSjlBJTNEJTNE; ECS[visit_times]=2; ECS[display]=grid; Qs_pv_201322=826829951973786900%2C2872777022353158700%2C1321481927929253400%2C4132523221394958300%2C4434797302945210000; Hm_lpvt_c29657ca36c6c88e02fed9a397826038=1699005846'
}
res = requests.get('http://www.aa7a.cn/', headers=header)
print('jxxz@outlook.com' in res.text)  # 没有携带cookie 访问

没有cookie时，模拟的是没登录，打印邮箱为False。

3、模拟自动点赞

携带cookie 方式一：放到headers中

https://dig.chouti.com/ 一个新闻小网站

import requests

data = {
    'linkId': 40496403  # 携带数据
}
header = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiI5ZjdhMzg4My1lNzE3LTRjZWItYTFlOS00M2RlZjViNzcxZTQiLCJleHBpcmUiOiIxNzAxNTk2ODg5NTkwIn0.hObzQIi48gGyQquOSJ0khw86KOZh1m5Fp-EZT43o2LU; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1699004891; __snaker__id=M7mhrtczSgObqvHu; gdxidpyhxdE=fN%2FaXpZBkwOHh5o%2Bpt5RN7hdShpijvAsDHmyQY6PacPHun2i50Htl3z17tbmRxRg1HM2UybdYQ%2Br5ectzMdH4JHNrYmTh3c0eZ8dDZy3S7XLuNg1W6skfuVoEpBRv7vvyBnRz%2F03Wq87Av4e3shXbxrYlLucCjzIuXo4mkugwdoCPiSk%3A1699005793876; YD00000980905869%3AWM_NI=iG0Xe6VFKNVNcScLWP5IqGCv1Bdy9m8tdF7QfPRZsBWfXeLO%2B11YN4aK7d5hpXZYNc7pmGXHxzGFK4oy%2FR8pdensbNfyY%2BEsxVIuCTWdy5h1VHJSQZFiUhCMAN8iREcjY1g%3D; YD00000980905869%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee92c46efc8b9f8bcb50a9e78aa6c15a838f8eb0d439fc92008cf952ab9a83acd12af0fea7c3b92aab9900b9e83e969a85afd546a18dadadd65cf797bfa8c27ef39eac9abc67fcacaca7b65ba6909ebbf24a95ba9886cf45e9efffbacd40a395f985b864b48896bacd69f5b0a3a8db44bca689a7ca40ada7e1b3bb7ca8bba294e146a6a797ccc879bc8a8796c26095bcb7d6eb3b969886b4d45286b79b89c2478392f88ad14fa1b697d2e637e2a3; YD00000980905869%3AWM_TID=Gm68Ql837AVFUFABEAfBjpdlxzNnBJeQ; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjdHVfNjk5MDA0OTU3NjgiLCJleHBpcmUiOiIxNzAxNTk2OTU3ODM5In0.ZotjKwHkfg7aUL2epOIYBpv3jIxm2kuKWKNyKsz9RoI; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1699010536'
}

res = requests.post('https://dig.chouti.com/link/vote', data=data, headers=header)
print(res.text)

4、携带cookie 方式二

def cookie_str_to_cookie_dict(s):
    return {item.split('=')[0]: item.split('=')[1] for item in s.split(';')}

from utils import cookie_str_to_cookie_dict
import requests

s = 'ECS_ID=f7a1f8e766253a8afdaf4de7714db1590fe822ec; Hm_lvt_c29657ca36c6c88e02fed9a397826038=1699003304; Qs_lvt_201322=1699003303; __xsptplus422=422.1.1699003342.1699003456.2%234%7C%7C%7C%7C%7C%23%23%23; ECS[username]=jingzhiz%40outlook.com; ECS[user_id]=67693; ECS[password]=d6e63b481ac9a3371c1d6e38129cde70; ECS[display]=grid; cto_bundle=apdAYl80d3BCRXQ5WlMzQnRjJTJGSFpobExSZ2dmY1BvaVpTMnJiYXJlUTgzJTJGdjVTVGdQSGdvN1lpZXBuaGF5ZWc5OTlXSkFIdFZuQ0k4Y25xSHpoVWoxaDhTdWdGWWRHUGN6czZCMXRWOXB3Sk9OVkxXTTFYMU9KQUxiMnNPNCUyRkklMkJrNURpN1N3dGJNWXdYcSUyRm1jc01ZTENnd3EzSXg3cE05MVZFMkswbUtSJTJGWkRLdGRsZE9PN1RmYW51UUI2M09lYUttOVU; ECS[visit_times]=3; Qs_pv_201322=1321481927929253400%2C4132523221394958300%2C4434797302945210000%2C4303319800648504000%2C3623981280408506400; Hm_lpvt_c29657ca36c6c88e02fed9a397826038=1699011224'
res = requests.get('http://www.aa7a.cn/', cookies=cookie_str_to_cookie_dict(s))
print('jingzhiz@outlook.com' in res.text)  # 携带cookie 访问, 结果为True

5、携带cookie 方式三

cookies参数携带RequestsCookieJar

data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': 'xxxx',
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login',
}
res = requests.post('http://www.aa7a.cn/user.php', data=data)
print(res.text)
print(type(res.cookies.get_dict())) # 登录成功的cookie，RequestsCookieJar  本质就是字典
from requests.cookies import RequestsCookieJar


# 拿到登录后的cookie，再向首页发送请求
res = requests.get('http://www.aa7a.cn/', cookies=res.cookies)
print('616564099@qq.com' in res.text)  # 没有携带cookie 访问

6、session 的使用---》原来每次都需要手动携带cookie

from requests import Session
session=Session()
data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': 'xxxx',
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login',
}
res = session.post('http://www.aa7a.cn/user.php', data=data)
res = session.get('http://www.aa7a.cn/')  #  可以自动处理cookie，不需要手动携带
print('616564099@qq.com' in res.text)

八、响应对象

1、响应对象

import requests

respone = requests.get('http://www.aa7a.cn/')

# print(type(respone))# 类的属性跟方法
# from requests.models import Response
# print(respone.text) # 响应体转成了字符串
# print(respone.content) # 响应体的二进制
# print(respone.status_code) # 响应状态码
# print(respone.headers) # 响应头
print(respone.cookies)   # 响应cookie
print(respone.cookies.get_dict())
# print(respone.cookies.items()) # 响应cookie---》转成key-value形式
#
# print(respone.url) # 请求地址
# print(respone.history) # 了解：访问过的地址  针对于  重定向的情况，才会有值
#
# print(respone.encoding) # 响应编码

2、下载一个视频

respone = requests.get('https://img3.chouti.com/CHOUTI_231102_8B10E74FBE2646748DE951D4EAB1F1E7.jpg')
# print(respone.content)
# 保存到本地--》就是这张图片
with open('致命诱惑.jpg', 'wb') as f:
    # f.write(respone.content)
    # for line in respone.iter_content(1024):
    for line in respone.iter_content():
        f.write(line)

九、高级用法

1、上传文件

## 10 高级用法：
# 1 关于https报错问题
'''
以后访问https地址时，可以会报错，访问https需要携带证书---》没带就会报错
不携带证书---》不报错
respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200
'''
import urllib3
import requests

urllib3.disable_warnings()
respone = requests.get('https://www.12306.cn', verify=False)
print(respone.text)

# 2 超时设置
# import requests
# respone=requests.get('https://www.baidu.com',timeout=0.0001)

# 3  认证设置 ---》不需要知道了，现在没有这种了---》不是前端认证

# 4 异常处理

# 5 上传文件
# import requests
#
files = {'file': open('a.jpg', 'rb')}
respone = requests.post('http://httpbin.org/post', files=files)
print(respone.status_code)


# 后端存储  request.FILES.get('file')

posted @ 2023-11-03 16:05 凡人半睁眼阅读(86) 评论(0) 编辑收藏举报

刷新页面返回顶部

海棠未雨，梨花先雪，一半春休

想看山海，早也去，晚也去，一个人也去

爬虫之requests模块

一、爬虫介绍

二、requests模块

三、携带请求参数

四、url 编码和解码

五、携带请求头

六、发送post请求

七、携带cookie

八、响应对象

九、高级用法

公告

海棠未雨，梨花先雪，一半春休

想看山海，早也去，晚也去 ，一个人也去

爬虫之requests模块

一、爬虫介绍

二、requests模块

三、携带请求参数

四、url 编码和解码

五、携带请求头

六、发送post请求

七、携带cookie

八、响应对象

九、高级用法

公告

想看山海，早也去，晚也去，一个人也去