爬虫 | 处理cookie的基本方法——session
1.爬虫 | 基本步骤和解析网页的几种方法2.爬虫 | xpath + lxml 库 解析爬取网页
3.爬虫 | 处理cookie的基本方法——session
4.爬虫 | 防盗链和代理5.爬虫 | 多线程、多进程、协程很多网页要求登录后,才能查看对应的信息,整个流程是:
客户端 服务器
玩家登录 返回cookie
获得cookie后继续访问其他页面 根据cookie查验身份,返回对应内容
session会话,理解为可以连续请求,先提交data换来cookie,然后可以带着cookie继续访问。比如此时想访问一个需要登录后才能展示的个人信息页面 https://example.com/profile
其实有两种方法,第一种就是session,第二种则是在网页上登录之后,将cookie放入请求中。
第一种方法:session
import requests
# 创建一个会话对象
session = requests.session()
# 使用会话对象登录(假设需要登录)
login_url = 'https://example.com/login'
login_data = {'username': 'myuser', 'password': 'mypass'}
session.post(login_url, data=login_data)
# 现在,由于我们使用了会话对象,所以后续的请求会携带前面请求中设置的cookies
# 例如,访问一个需要登录后才能展示的个人信息页面
profile_url = 'https://example.com/profile'
response = session.get(profile_url) #>>>> 用session去请求
print(response.text)
# 当你完成所有请求后,可以关闭会话(但这不是强制的,因为Python的垃圾回收机制会处理它)
session.close()
第二种方法
# 1. 在网页中完成登录
# 2. 进入想要访问的个人信息页面:https://example.com/profile
# 3. 在开发者工具中找到请求头request headers,里面有个cookie。复制下来
url = 'https://example.com/profile'
headers = {
'cookie': '复制下来的一大串东西'
}
req = requests.get(url = url, headers = headers)
# 效果一样,但是麻烦一点点
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!