在网站中,HTTP请求是无状态的,即:第一次和服务器连接并登录成功后,第二次请求服务器依然不能知道当前请求是来自哪个用户。

cookie的出现解决了这一问题,第一次登陆后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求时,就会自动的把上次请求存储的cookie数据自动携带发送给服务器,服务器通过cookie携带的数据信息就能判断当前用户是哪一个。cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不会超过4KB。因此,cookie只能存储小量的数据。

cookie的格式:

Set-Cookie: NAME=VALUE; Expires/Max-age=DATE; Path=PATH; Domain=DOMAIN_NAME; SECURE

参数意义

NAME:cookie的名字;

VALUE:cookie的值;

Expires:cookie的过期时间;

Path:cookie作用的路径;

Domain:cookie作用的域名,即:子域名;

SECURE:是否只在HTTPS协议下起作用。

 

http.cookiejar模块:

该模块主要的类用Cookie.Jar、FileCookieJar、MozillaCookieJar、LWPCookieJar。这四个类的作用分别如下:

1. CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。

整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。

2. FileCookieJar (filename.delayload=None, policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,

检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为Ture时支持延迟访问访问文件,

即:只有在需要时才能读取文件或在文件中存储数据。

3. MozillaCookieJar (filename.delayload=None, poliy=None):从FileCookieJar派生而来,创建于Mozilla浏览器cookie.txt

兼容的FileCookieJar实例。

4. LAWPCookieJar (filename.delayload=None, policy=None):从FileCookieJar派生而来,创建与libwww-per标准的

Set-cookie3文件格式兼容的FileCookieJar实例。

from urllib import request
from urllib import parse
from http.cookiejar import CookieJar

''' 

面向过程:

# 1.登录
# 1.1 创建一个cookiejar对象
cookiejar = CookieJar()
# 1.2 使用cookiejar创建一个HTTPCookieProcess对象
handler = request.HTTPCookieProcessor(cookiejar)
# 1.3 使用上一步创建的handle创建一个opener
opener = request.build_opener(handler)
# 1.4 使用opener发送登录的请求 (登录账号和密码)

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3642.0 Safari/537.36'
}

data = {
    '账号':'*****',
    '密码':'******'
}
# 登录页面的URL
login_url = 'http://www.renren.com/'
req = request.Request(login_url,data=parse.unlencode(data).encode('utf-8'),headers=headers)
opener.oepn(req)



# 2. 访问个人主页,登录后的个人页面
geren_url = 'http://www.renren.com/********'
# 获取个人主页的页面时,不要新建一个opener
# 而应该使用之前的那个opener, 因为之前的那个opener已经包含了登录所需要的的cookie信息
req = request.Request(geren_url,handlers=headers)
resp = opener.open(req)
with open('renren.html','w',encoding='utf-8') as fp:
    fp.write(resp.read().decode('utf-8'))

'''




def get_opener(): # 1.1 创建一个cookiejar对象 cookiejar = CookieJar() # 1.2 使用cookiejar创建一个HTTPCookieProcess对象 handler = request.HTTPCookieProcessor(cookiejar) # 1.3 使用上一步创建的handle创建一个opener opener = request.build_opener(handler) return opener def login_renren(opener): # 1.4 使用opener发送登录的请求 (登录账号和密码) data = { '账号': '*****', '密码': '******' } # 登录页面的URL login_url = 'http://www.renren.com/' req = request.Request(login_url, data=parse.unlencode(data).encode('utf-8'), headers=headers) opener.oepn(req) def visit_profile(opener): # 2. 访问个人主页,登录后的个人页面 geren_url = 'http://www.renren.com/********' # 获取个人主页的页面时,不要新建一个opener # 而应该使用之前的那个opener, 因为之前的那个opener已经包含了登录所需要的的cookie信息 req = request.Request(geren_url,handlers=headers) resp = opener.open(req) with open('renren.html','w',encoding='utf-8') as fp: fp.write(resp.read().decode('utf-8')) if __name__=='__main__': opener = get_opener() login_renren(opener) visit_profile(opener)

  

 

保存cookie到本地:

保存cookie到本地,可以使用cookiejar的save方法,并且需要指定一个文件名:

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('cookie.txt')
# 加载Cookie信息
cookiejar.load(ignore_discard=True)
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3642.0 Safari/537.36'
}

req = opener.open('http://httpbin.org/cookies',handlers=headers)

# Resp = opener.open(req)执行完,Cookie信息就过期了。
resp = opener.open(req)
print(resp.read())
# Ignore_discard = True :保存即将过期的Cookie信息。
cookiejar.save(ignore_discard=True,ignore_expires=True)
View Code

 

posted on 2020-10-18 13:13  -豪-  阅读(150)  评论(0编辑  收藏  举报