python 内存管理
python GC
python 采用引用计数的垃圾回收机制,对于循环引用 采用分代回收+部分标记清除算法,分代回收将引用分为三代,0代,1代,2代,在每代触发GC后,采用 部分标记清除算法 识别垃圾,剩下的代+1,以此实现垃圾回收。
以下的内容基于 pyhton 3.01 python 源码下载 , 《垃圾回收算法与实现》 一书 ,ISBN: 978-7-115-42747-2
python 中的引用计数
python 引用计数在CPython的C源码 Include/object.h 中
typedef struct_object {
_PyObject_HEAD_EXTRA
int ob_refcnt; // 负责引用计数
struct_typeobject *ob_type; // 负责维持各种类型的信息
} PyObject;
在 PyObject
中的 ob_refcnt
成员负责维持引用计数,所有的内置类型结构体都在开头保留了 PyObject 结构体。
当出现减数、加数操作时,相应的 ob_refcnt
-1 +1 如果ob_refcnt == 0
,释放内存
循环引用的垃圾回收算法
部分标记-清除算法
其实 python 中的循环引用释放算法是 部分标记-清除算法 的变形版,对此加以改良。
因为这个循环引用释放算法只对那些有循环引用关系的垃圾对象群进行垃圾回收,所以又称为 循环引用垃圾回收。
算法流程
分代回收
容器
何时执行
终结器
拥有__del__()
方法的对象,此对象无法被GC。
性能调优
gc模块上场吧
python内存管理
在Python中,当要分配内存空间时,不单纯的使用 malloc/free
,而是在其基础上堆放了3个独立的分层,有效率地进行分配。
层次 | 分配器 | 代表函数 |
---|---|---|
字典、元组、数值、字符串、列表 ... | ||
第 3 层 | 对象持有的内存分配器 | PyDict_New() |
第 2 层 | Python 对象分配器 | PyObject_GC_New() |
第 1 层 | Python 低级内存分配器 | PyObject_Malloc() |
第 0 层 | 调用基础的分配器 (如glibbc 的 malloc等) | malloc() |
第 -1 层 | OS 特有的虚拟内存管理器 | |
第 -2 层 | 物理内存、交换目的地(如 HDD ) |
挖坑
TODO 具体实现
https://www.hongweipeng.com/index.php/archives/1336/
第 0 层
C语言 mallco free
第 1 层
block,pool,aranen
第 2 层
usedpopl
第 3 层
空闲链表
tips
引用计数,计数器为什么不会溢出
计数器足够大,能够数完堆中所有对象的引用数。TODO 操作系统中的堆是什么
P45
参考
Python GC垃圾回收机制
以引用计数机制为主,标记清除、分代回收为辅
引用计数机制
python里每一个东西都是对象,它们的核心就是一个结构体:PyObject
typedef struct_object {
int ob_refcnt;
struct_typeobject *ob_type;
} PyObject;
PyObject是每个对象必有的内容,其中ob_refcnt
就是做为引用计数。当一个对象有新的引用时,它的ob_refcnt
就会增加,当引用它的对象被删除,它的ob_refcnt
就会减少,当引用计数为0时,该对象的生命就结束了。
引用计数的优点:
- 简单
- 实时性,一旦没有引用,内存就会直接释放。不用等到特定时机。实时性还带来了一个好处:处理内存回收的时间分摊到了平时。
引用计数的缺点:
- 维护引用计数消耗资源
- 无法解决循环引用
循环引用
l1 = []
l2 = []
l1.append(l2)
l2.append(l1)
del l1
del l2
# 此时 l1,l2 的引用为 1 ,内存无法被回收,Python会引入其他GC算法
标记-清除
『标记清除(Mark—Sweep)』算法是一种基于追踪回收(tracing GC)技术实现的垃圾回收算法。它分为两个阶段:第一阶段是标记阶段,GC会把所有的『活动对象』打上标记,第二阶段是把那些没有标记的对象『非活动对象』进行回收。那么GC又是如何判断哪些是活动对象哪些是非活动对象的呢?
对象之间通过引用(指针)连在一起,构成一个有向图,对象构成这个有向图的节点,而引用关系构成这个有向图的边。从根对象(root object)出发,沿着有向边遍历对象,可达的(reachable)对象标记为活动对象,不可达的对象就是要被清除的非活动对象。根对象就是全局变量、调用栈、寄存器。
标记清除算法作为Python的辅助垃圾收集技术主要处理的是一些容器对象,比如list、dict、tuple,instance等,因为对于字符串、数值对象是不可能造成循环引用问题。Python使用一个双向链表将这些容器对象组织起来。不过,这种简单粗暴的标记清除算法也有明显的缺点:清除非活动的对象前它必须顺序扫描整个堆内存,哪怕只剩下小部分活动对象也要扫描所有对象。
分代回收
分代回收是一种以空间换时间的操作方式,Python将内存根据对象的存活时间划分为不同的集合,每个集合称为一个代,Python将内存分为了3“代”,分别为年轻代(第0代)、中年代(第1代)、老年代(第2代),他们对应的是3个链表,它们的垃圾收集频率与对象的存活时间的增大而减小。新创建的对象都会分配在年轻代,年轻代链表的总数达到上限时,Python垃圾收集机制就会被触发,把那些可以被回收的对象回收掉,而那些不会回收的对象就会被移到中年代去,依此类推,老年代中的对象是存活时间最久的对象,甚至是存活于整个系统的生命周期内。同时,分代回收是建立在标记清除技术基础之上。分代回收同样作为Python的辅助垃圾收集技术处理那些容器对象