python pickle模块的使用讲解

机器学习中，我们常常需要把训练好的模型存储起来，这样在进行决策时直接将模型读出，而不需要重新训练模型，这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题，它可以序列化对象并保存到磁盘中，并在需要的时候读取出来，任何对象都可以执行序列化操作。

pickle模块中最常用的函数为：

pickle.dump(obj, file, [,protocol])

函数的功能：将obj对象序列化存入已经打开的file中。

参数讲解：
obj：想要序列化的obj对象。
file:文件名称。
protocol：序列化使用的协议。如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

pickle.load(file)

函数的功能：将file中的对象序列化读出。

参数讲解：
file：文件名称。

pickle.dumps(obj[, protocol])

函数的功能：将obj对象序列化为string形式，而不是存入文件中。

参数讲解：
obj：想要序列化的obj对象。
protocal：如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

pickle.loads(string)

函数的功能：从string中读出序列化前的obj对象。

参数讲解：
string：文件名称。

dump() 与 load() 相比 dumps() 和 loads() 还有另一种能力：dump()函数能一个接着一个地将几个对象序列化存储到同一个文件中，随后调用load()来以同样的顺序反序列化读出这些对象。

【代码示例】test_pickle.py

#coding:utf-8
__author__ = 'weipengfei'
#pickle模块主要函数的应用举例
import pickle
dataList = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'],
            [0, 1, 'no']]
dataDic = {0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}

#使用dump()将数据序列化到文件中
fw = open('dataFile.txt', 'wb')
# Pickle the list using the highest protocol available.
pickle.dump(dataList, fw, -1)
# Pickle dictionary using protocol 0.
pickle.dump(dataDic, fw)
fw.close()

#使用load()将数据从文件中序列化读出
fr = open('dataFile.txt', 'rb')
data1 = pickle.load(fr)
print(data1)
data2 = pickle.load(fr)
print(data2)
fr.close()

#使用dumps()和loads()举例
p = pickle.dumps(dataList)
print(pickle.loads(p))
p = pickle.dumps(dataDic)
print(pickle.loads(p))

结果：

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}

补充：

序列化的概念:人类的语言太丰富了，计算机要想去存储，肯定是要转化成它所能理解的某种方式。所以这个“翻译”的过程就叫序列化。

注意观察，我们人类的语言是有结构的（主谓宾定状补），计算机的语言是无结构的，就是一串的“01010100010011”，是吧？那么经常我们要将一些信息保存在计算机内部中，比如保存为文件；有时候我们还会把一段话传给网线另一侧的计算机，比如我和同事用QQ聊天，我们这一侧只是输入“你好”，同事那一头收到“你好”的消息。

无论你是保存到本地，还是通过网线传输，信息都要转化成“00111011”的样子。注意这两个场景：

本地存储
网络传输

实在记不住的话只记住一点即可：凡是离开内存的信息都要进行序列化。

posted @ 2020-08-03 14:31 snailon 阅读(964) 评论(0) 收藏举报

刷新页面返回顶部

python pickle模块的使用讲解

pickle.dump(obj, file, [,protocol])

pickle.load(file)

pickle.dumps(obj[, protocol])

pickle.loads(string)

【代码示例】test_pickle.py

结果：

补充：

公告