爬虫介绍,,requests模块介绍和快速使用,,requests发送get请求,,携带get参数,,携带请求头_发送post请求_携带cookie_post请求携带参数,,模拟登陆__session对象__相应对象_ssl认证__使用代理,,超时设置_异常处理_上传文件

爬虫介绍

爬虫是什么?
  -通过编程技术---》把互联网中的数据---》获取到---》数据清洗---》存到库中
python:request,selenium---》app,小程序,网站---》xpaht,lxml---》mysql,redis,文件,excel,mongodb
  -通过编程语言---》模拟发送http请求---》获取数据---》解析--》入库
  -爬取过程 解析过程 会遇到反扒
  -抓app,小程序---》抓包工具---》抓取手机发送的所有请求
    -charles
    -Fiddler

# 爬虫 有爬虫协议
  -协议
    -https://xxx/robots.txt
# 百度 是个大爬虫
  -百度/谷歌 搜索引擎---》启动了一个爬虫---》一刻不停的在互联网中爬取网站---》存到库中(es)
  -用户在百度输入框中---》输入搜索内容---》去百度的库中搜索--》返回给前端---》前端点击---》去了真正的地址

-seo 优化
  -不花钱---》搜索关键词的结果---》排的靠前
  -伪静态
-sem 优化
  -花钱买关键词

requests模块介绍和快速使用

requests:模拟发送http请求模块---》封装了urlib3[python内置的发送http请求的模块]
  -爬虫会用
  -后端---》向其他api接口发送请求
  -同步

# requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
# 第三方: pip3 install requests

requests发送get请求

requests可以模拟发送http请求,有的时候,网站会禁止---》禁止的原因是:模拟的不像,有的东西没带
# http请求:请求头中没带东西,没带cookie,客户端类型,referer。。。
  import requests
# 这个网站没有反扒
  res=requests.get('https://www.cnblogs.com/')
  print(res.text) # 响应体内容

携带get参数

复制代码
import requests

# 1 url编码和解码  %E4%B8%8A%E6%B5%B7   上海

# res=requests.get('https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=上海&query=肯德基&output=json')


# 2 携带get参数,第二种方式
params = {
    'ak': '6E823f587c95f0148c19993539b99295',
    'region': '上海',
    'query': '肯德基',
    'output': 'json',
}
res = requests.get('https://api.map.baidu.com/place/v2/search',params=params)

print(res.text)  # 响应体内容


### url 编码和解码

from urllib.parse import quote,unquote
# s='上海'  # %E4%B8%8A%E6%B5%B7
# print(quote(s))

print(unquote('%E4%B8%8A%E6%B5%B7'))
复制代码

携带请求头

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.get('https://dig.chouti.com/',headers=headers)
print(res.text)

发送post请求

复制代码
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJiNjEzOGM2OS02ZWRlLTQ3MWItODI4Yy03YTg2ZTE3M2E3NjEiLCJleHBpcmUiOiIxNzEwOTAxNjM1MTMxIn0.JluPFMn3LLUGKeTFPyw7rVwR-BWLiG9V6Ss0RGDHjxw; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1708309636; __snaker__id=miaeDoa9MzunPIo0; gdxidpyhxdE=lMhl43kDvnAOqQQcQs9vEoTiy8k90nSwfT3DkVSzGwu3uAQWI9jqa2GcIUvryeOY0kX6kfPuhJUAGrR6ql0iv%2F6mCzqh6DHE1%5CP%2BaIXeUQgLcfqlklCcq2V9CgWbvQRGeRaduwzkcPYwf6CXZiW9a87NxU%2BRlYq57Zq01j2gMK0BaX%2FK%3A1708310847499; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1708309982'
}
data = {
    'linkId': '41566118'
}
# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data)
print(res.text)
复制代码

携带cookie

复制代码
import requests

'''
是否登录---》有个标志
 1 前后端混合项目---》登录信息-->放在cookie中了
 2 前后端分离项目---》登录信息--》后端规定的--》放在请求头的


'''
### 携带cookie的第一种方式:放在请求头中
# headers = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
#     'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJiNjEzOGM2OS02ZWRlLTQ3MWItODI4Yy03YTg2ZTE3M2E3NjEiLCJleHBpcmUiOiIxNzEwOTAxNjM1MTMxIn0.JluPFMn3LLUGKeTFPyw7rVwR-BWLiG9V6Ss0RGDHjxw; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1708309636; __snaker__id=miaeDoa9MzunPIo0; gdxidpyhxdE=lMhl43kDvnAOqQQcQs9vEoTiy8k90nSwfT3DkVSzGwu3uAQWI9jqa2GcIUvryeOY0kX6kfPuhJUAGrR6ql0iv%2F6mCzqh6DHE1%5CP%2BaIXeUQgLcfqlklCcq2V9CgWbvQRGeRaduwzkcPYwf6CXZiW9a87NxU%2BRlYq57Zq01j2gMK0BaX%2FK%3A1708310847499; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1708309982'
# }
# data = {
#     'linkId': '41566118'
# }
# # 没有登录---》返回的数据不是咱们想要的
# res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data)
# print(res.text)


### 携带cookie的第一种方式:放在cookie参数中---》cookie特殊--》后期用的频率很高
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
}
data = {
    'linkId': '41566118'
}
cookie = {
    'token': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc'
}

# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data, cookies=cookie)
print(res.text)
复制代码

 

post请求携带参数

复制代码
import requests
# 方式一:data参数:urlencoded
# post请求:三种编码方式:json,urlencoded,form-data
# 咱们以data字典形式携带--->urlencoded编码---》最终它会被编码为---》name=lqz&age=19 -->放在请体中
# res=requests.post('地址',data={'name':'lqz','age':19})
res=requests.post('地址',data=b'name=lqz&age=19')

# 方式二:json编码:json
# 咱们以json字典形式携带--->json编码---》最终它会被编码为---》{'name':'lqz','age':19} -->放在请体中
res=requests.post('地址',json={'name':'lqz','age':19})
复制代码

 

模拟登录

复制代码
# 发送post请求---》一般登录接口---》post请求---》登录成功后---》能拿到:登录信息---》以后再发请求---》携带登录信息--》就是登录状态

# 可见即可爬



import requests

data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': '3333',
    'remember': '1',
    'ref': ' http://www.aa7a.cn/',  # 登录成功,重定向到这个地址
    'act': 'act_login',
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.post('http://www.aa7a.cn/user.php', headers=header, data=data)
print(res.text)
# 登录成功的cookie
cookies=res.cookies
print(cookies)


# 向首页发送请求--->登录状态
res=requests.get('http://www.aa7a.cn/',cookies=cookies)
print('616564099@qq.com' in res.text)
复制代码

session对象

复制代码
# http 请求,每次都是一个新的---》cookie需要自己处理携带
# session可以自动处理cookie,不需要手动携带了




import requests

session=requests.session()
# 以后发送请求使用session

data = {
    'username': '616564099@qq.com',
    'password': 'lqz1233',
    'captcha': '3333',
    'remember': '1',
    'ref': ' http://www.aa7a.cn/',  # 登录成功,重定向到这个地址
    'act': 'act_login',
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = session.post('http://www.aa7a.cn/user.php', headers=header, data=data)


# 向首页发送请求--->登录状态

res=session.get('http://www.aa7a.cn/')
print('616564099@qq.com' in res.text)
复制代码

响应对象

复制代码
# response 对象---》http响应

### 使用requests模块
# 发送请求:request对象:请求头,请求参数,请求体---》本质就是http请求--》被包装成一个对象
# 响应回来:response对象:http响应--》cookie,响应头,响应体。。

### django框架
    -request:http请求
    -response:http响应
    
# requests模块的response对象中有哪些东西?
    
    
# 爬取图片--》图片防盗链---》referfer--》请求头中即可
import requests

# header = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
# }
# respone = requests.get('https://www.jianshu.com/',headers=header)
# # respone属性
# print(respone.text)  # 响应体---》字符串形式
# print('------------')
# print(respone.content)  # 响应体---》bytes格式
# print('------------')
# print(respone.status_code)  # 响应状态码
#
# print(respone.headers)  # 响应头
# print(respone.cookies)  # 响应的cookie
# print(respone.cookies.get_dict())  # cookiejar对象--->转成字典格式
# print(respone.cookies.items())  # cookie的value值
#
# print(respone.url)  # 请求地址
# print(respone.history)  # 访问历史---》重定向,才会有
#
# print(respone.encoding)  # 编码格式

# response.iter_content() # 图片,视频---》迭代着把数据保存到本地

# 如果下载图片,视频。。。

# 图片防盗链---》通过referer做的--》请求头中有个referer参数--》上次访问的地址
# res=requests.get('https://tupian.qqw21.com/article/UploadPic/2022-2/20222102371522350.jpg')
header={
    'Referer':'https://www.tupianzj.com/'
}
res=requests.get('https://img.lianzhixiu.com/uploads/allimg/180514/9-1P514153131.jpg',headers=header)
# print(res.content)
# with open('美女.jpg','wb') as f:
#     f.write(res.content)
with open('code.jpg','wb') as f:
    for line in res.iter_content(chunk_size=1024):
        f.write(line)
复制代码

ssl 认证

复制代码
# http  和 https
    -http:超文本传输协议
    -https:安全的超文本传输协议
    -https=http+ssl/tls
    -防止:篡改,截取。。。。
    -必须有证书:才能通信
    
    
   


import requests

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
respone = requests.get('https://www.jianshu.com/',headers=header,verify=False)
# respone = requests.get('https://www.jianshu.com/',headers=header,cert=('/path/server.crt','/path/key'))
print(respone.text)
复制代码

使用代理

复制代码
# 正向代理---》反向代理


# 代理有免费和收费的
    -大神写了开源的免费代理---》原理:有些网站提供免费的代理--》爬虫技术---》爬取别人的免费代理--》验证过后---》自己用
    





import requests

res = requests.get('http://demo.spiderpy.cn/get/?type=https')
print(res.json())
print(res.json()['proxy'])

# 112.30.155.83:12792
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
# respone = requests.get('https://www.jianshu.com/', headers=header, proxies={'https': res.json()['proxy']})
respone = requests.get('https://www.jianshu.com/', headers=header)
print(respone.text)
复制代码

超时设置,异常处理,上传文件

复制代码
## 超时
import requests
respone=requests.get('https://www.baidu.com',timeout=0.0001)

# 异常处理
import requests
from requests.exceptions import * #可以查看requests.exceptions获取异常类型

try:
    r=requests.get('http://www.baidu.com',timeout=0.00001)
except ReadTimeout:
    print('===:')
# except ConnectionError: #网络不通
#     print('-----')
# except Timeout:
#     print('aaaaa')

except RequestException:
    print('Error')
    
    
    
    
# 上传文件

import requests
files={'file':open('a.jpg','rb')}
respone=requests.post('http://httpbin.org/post',files=files)
print(respone.status_code)
复制代码

 

补充:  正向代理与反向代理

正向代理需要配置代理服务器,而反向代理不需要做任何设置

 

什么是正向代理

正向代理(Forward Proxy)是一种代理服务器,它位于客户端和服务端之间,代表客户端向其他服务器发送请求。

一般使用的场景就是,当客户端无法直接访问某些资源时,可以通过正向代理来访问。正向代理服务器会将客户端的请求转发给目标服务器,并将响应返回给客户端。正向代理服务器可以缓存请求的响应,从而提高访问速度,并且可以对客户端进行身份验证和授权。

平常我们使用比较多的代理ip或者V/P/N就是这种场景

特点

正向代理需要主动设置代理服务器ip或者域名进行访问,由设置的服务器ip或者域名去访问内容并返回

正向代理是代理客户端,为客户端收发请求,使真实客户端对服务器不可见

 

正向代理的使用的场景

那么正向代理一般用在哪里,以下为常见的几种正向代理场景:

1、V/P/N

代表“虚拟专用网络”,这是一项保护互联网连接和在线隐私的服务。比如我们为了保护公司的隐私安全,设置公司的网络只有通过 VPN 登录后才能进行接入。

2、动态 IP 代理

动态 IP 代理最常用的场景就是网络爬虫,因为大多数网站为了避免被频繁的访问和抓取,会限制访问 IP,如果使用同一个 IP 进行访问,那么很快就会不限制无法访问。因为我们需要 动态 IP 服务器帮我们转发请求,从而避免被目标服务器检测出是在频繁抓取。

3、隐藏客户端 IP

隐藏客户端 IP 就是我们经常电影中看到的,黑客通过代理手段,隐藏自己的真实 IP,避免被其它发现自己的实际 IP,从而查到黑客实际所在地址。

 

 

三、什么是反向代理

反向代理是一种代理服务器,在客户端向服务器发送请求时,代理服务器从一组或多组后端服务器中获取资源并返回给客户端,客户端只知道反向代理的IP地址,不知道代理服务器后面的服务器簇的存在。与正向代理相反,反向代理是作为服务器端的代理,而不是作为客户端的代理,用于隐藏真实服务端。

 

特点:

正向代理需要配置代理服务器,而反向代理不需要做任何设置。

反向代理是代理服务器,为服务器收发请求,使真实服务器对客户端不可见。

 

反向代理的使用场景

1、堡垒机

堡垒机是一种安全审计系统,它管控着各种想登录服务器的权限或者是操作,能够监督员工们的操作,对员工们的行为起到约束监控作用。通过堡垒机我们可以管控员工对服务器的访问,保护真实服务器的安全。

2、nginx 负载均衡

负载均衡服务器(Load Balancer)是一种用于分配网络请求和流量的设备或软件。它的主要目的是在多个服务器(或计算资源)之间平均分配负载,以确保这些服务器能够高效地共同处理请求,提高系统的性能、可用性和稳定性。比如我们常见的使用 nginx 作为负载均衡服务器。


总结,正向代理反向代理主要的区别在于代理的对象不一样,正向代理的客户端,对于服务端来说,访问的就是真实的客户端;反向代理代理的是服务端,对客户端来说,访问的就是真实服务服务端。

 

posted @   拆尼斯、帕丁顿  阅读(29)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
点击右上角即可分享
微信分享提示