python变量及内存管理
python变量及内存管理
一、变量
1、变量组成的三大部分
变量名 = 变量值
1.1、变量名
变量名指向变量值所在的内存地址,是访问变量值的唯一方式
1.2、= 赋值符号
=
用来将变量值的内存地址绑定给变量名
1.3、变量值
变量值就是我们真是需要的数据
1.4、变量定义示例
>>> a = 1000
>>> print (a)
1000
2、变量的三大特性
2.1、ID
ID 代表的是变量在内存中的唯一编号,内存地址不同,ID不同
2.2、类型
类型 代表变量值的数据类型
2.3、值
变量值本身
2.4、示例
>>> a = 1000
>>> print (id(a))
1931375794544
>>> print(type(a))
<class 'int'>
>>> print (a)
1000
3、is 和 == 的区别
is 比较左右两个值的ID是否相等
== 比较左右两个值是否相等
>>> a = 1000
>>> b = 1000
>>> print (a,b)
1000 1000
>>> print (id(a),id(b))
1931375794384 1931375794544
>>> print (a is b)
False
>>> print (a == b)
True
二、内存管理
Python 解释器在执行到定义变量的语法时,会申请内存空间来存放变量的值,而内存的容量是有限的,这就涉及到变量值所占用内存空间的回收问题,当一个变量值没有用了(简称垃圾)就应该将其占用的内存给回收掉,那什么样的变量值是没有用的呢
单从逻辑层面分析,我们定义变量将变量值存起来的目的是为了以后取出来使用,而取得变量值需要通过其绑定的直接引用(如x=10,10被x直接引用)或间接引用(如l=[x,2],x=10,10被x直接引用,而被列表类型l间接引用),所以当一个变量值不再绑定任何引用时,我们就无法再访问到该变量值了,该变量值自然就是没有用的,就应该被当成一个垃圾回收
内存空间的申请与回收都是非常耗费精力的事情,而且存在很大的危险性,稍有不慎就有可能引发内存溢出问题,不过不用担心, Cpython 解释器提供了自动的垃圾回收机制来帮我们解决了这件事
1、垃圾回收机制
垃圾回收机制(简称GC),是 Python解释器自带的一种内存管理机制,它专门用来回收没有存在价值的变量值所占用的内存空间
2、为什么要有垃圾回收机制
因为在程序的运行过程中会申请大量的内存空间,然而对于一些没用的内存空间如果不及时清理,最终就会导致内存溢出,进而导致程序崩溃、系统宕机。因此,内存管理是一件很重要且繁杂的事情,较好的是,Python 解释器自带的垃圾回收机制把开发人员从繁杂的内存管理中解放出来了
3、栈区与堆区
在定义变量的时候,变量名与变量值都是需要存储的,分别对应内存中的两块区域:栈区与堆区
变量名与变量值的内存地址的关联关系存放于栈区
变量值存放于堆区中,内存管理回收的就是堆区的空间
示例1:定义了两个变量 x = 10 , y = 20
示例2:执行了 x = y 时,内存中栈区与堆区的变化
4、直接引用与间接引用
直接引用:从栈区出发直接引用到的内存地址
间接引用:从栈区出发引用到堆区后,再通过进一步引用才能到达的内存地址
>>> a = 10
>>> b = [a,20]
>>> print (a)
10
>>> print (b)
[10, 20]
5、垃圾回收机制:引用计数
Python 的 GC 机制主要运用了 引用计数(reference counting) 来跟踪和回收垃圾。在引用计数的基础上,还可以通过 标记-清除(mark and sweep) 解决容器对象可能产生的循环引用的问题,并且通过 分代回收(generation collection) 以空间换取时间的方式来进一步提高垃圾回收的效率。
5.1、什么是引用计数
引用计数就是变量值被变量名关联的次数
>>> x = 1
>>> print (x)
1
# 变量值1 被关联了一个变量名x,此时引用计数为1
5.2、引用次数的增减
1、引用次数增加
>>> x = 1
>>> y = x
>>> print (x,y)
1 1
# 变量值1被关联了一个变量名x,又把x的内存地址给了y,此时变量值1的引用计数为2
2、引用次数减少
>>> x = 1
>>> y = x
>>> x = 17
>>> print (x,y)
17 1
#变量名x与变量值1的关系解除,与变量值3建立联系,此时变量值1的引用计数为1
>>> x = 1
>>> print (x)
1
>>> del x
>>> print (x)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name 'x' is not defined
# 使用del解除变量名x和变量值1的关联,此时变量值1的引用计数为0
5.3、引用计数的问题和解决方案
引用计数存在一个致命的弱点,即循环引用
>>> l1 = ['x']
>>> l2 = ['y']
>>> l1.append(l2) #把列表2追加到l1中作为第二个元素,列表2的引用计数变为2
>>> l2.append(l1) #把列表1追加到l2中作为第二个元素,列表1的引用计数变为2
>>>
>>> print(l1)
['x', ['y', [...]]]
>>> print(l2)
['y', ['x', [...]]]
# 此时便形成了循环引用,即使变量值不再被任何变量名关联,但变量值的引用计数仍不为0
>>> del l1
>>> del l2
# 变量名 l1 与 l2 已经解除了与 x 和 y 的关联,但是由于 l1 与 l2 之间相互引用,此时两个列表的引用计数均不为 0,但是两个列表不再被任何其他对象关联,没有任何人可以再次访问到这两个列表,那么理论上这两个列表所占用的内存空间应该被回收,但是由于两个列表之间有相互引用,导致引用计数不为 0,因此这些对象所占用的内存空间永远不会被释放,所以说,循环引用是致命的,循环引用会导致内存泄漏
5.4、标记 清除
标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时,就会停止整个程序,然后进行两项工作,第一项则是标记,第二项则是清除
1、标记
# 通过栈区(变量名)可到达(访问)的对象,就叫GC Roots可达的对象
# 将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象,其余的均为非存活对象,应该被清除
2、清除
# 遍历堆中所有的对象,将没有标记的对象全部清除掉
5.5、分代
引用计数 除了具有 循环引用 带来的 内存溢出 的问题,还有 效率问题
基于引用计数的回收机制,每次回收内存,都需要把所有对象的 引用计数 全部都遍历一遍,这是非常消耗时间的,于是引入了 分代回收 来提高回收效率,分代回收采用的是用 空间换取时间 的策略
1、分代
# 分代回收的核心思想是:在历经多次扫描的情况下,都没有被回收的变量,gc机制就会认为,该变量是常用变量,gc对其扫描的频率会降低
2、回收
# 使用引用计数作为回收的依据
6、小整数对象池
在Python中,Python解释器为了优化其自身的性能,于是具有了小整数对象池的概念
# 在 Python 中,小整数对象池的定义是:在 [-5, 256] 的这个范围之内的整数对象是提前创建好的,不会被垃圾回收机制回收。在一个 Python 的程序中,所有位于这个范围内的整数使用的都是同一个对象
>>> a = 256
>>> b = 256
>>> c = 257
>>> print (id(a),id(b),id(c))
2761673351376 2761673351376 2761674381680
7、字符串驻留机制
字符串类型作为 Python 中最常用的数据类型之一,Python 解释器为了提高字符串使用的效率和使用性能,Python解释器中使用了 intern(驻留)的技术来提高字符串效率
7.1、什么是字符串驻留机制
什么是 intern 机制?也就是值同样的字符串对象仅仅会保存一份,放在一个字符串储蓄池中,是共用的,当然,肯定不能改变,这也决定了字符串类型必须是不可变对象
7.2、字符串驻留机制原理
实现 intern 机制的方式非常简单,就是通过维护一个字符串储蓄池,这个池子是一个字典结构,如果字符串已经存在于池子中就不再去创建新的字符串,直接返回之前创建好的字符串对象,如果之前还没有加入到该池子中,则先构造一个字符串对象,并把这个对象加入到池子中去,方便下一次获取
但是,解释器内部对 intern 机制的使用策略是有讲究的,有些场景会自动使用 intern ,有些地方需要通过手动方式才能启动
并非全部的字符串都会采用intern机制。仅仅包括下划线、数字、字母的字符串才会被intern,字符串只在编译时进行驻留,而非运行时
1、正常启用
>>> s1 = 'test'
>>> s2 = 'test'
>>> print (s1 is s2)
True
2、有空格,不启用
>>> s1 = 'tes t'
>>> s2 = 'tes t'
>>> print (s1 is s2)
False
3、字符串只在编译时进行驻留,而非运行时
>>> s1 = 'xyz'
>>> s2 = 'xy'+'z'
>>> s3 = ''.join(['xy','z']) # join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串
>>> s1 is s2
True
>>> s1 is s3
False