ptmalloc内存分配和回收详解(文字版)
ptmalloc内存分配和回收详解(文字版)
进程默认内存布局(x86)
从进程的内存布局可知,.bss段之上的这块分配给用户程序的空间被称之为heap,start_brk指向heap的开始,而brk指向heap的顶部。可以使用系统调用brk()和sbrk()来增加表示heap顶部的brk值,从而线性的增加分配给用户的heap空间。在使用malloc之前,brk的值等于start_brk,也就是说,heap大小为0。
ptmalloc在开始时,若请求的空间小于mmap分配阈值(mmap threshold, 默认值为128KB)时,主分配区会调用sbrk()增加一块大小为(128KB + chunk_size)align 4KB的空间作为heap,非主分配区会调用mmap映射一块大小为HEAP_MAX_SIZE(32位1MB,64位64MB)的空间作为sub-heap。这就是ptmalloc所维护的分配空间。
ptmalloc内存管理设计假设
1、具有长生命周期的大内存分配使用mmap。
2、特别大的内存分配总是使用mmap。
3、具有短生命周期的内存分配使用brk,因为用mmap映射匿名页,当发生缺页异常时,linux内核为缺页分配一个新的物理页,导致多次清零操作,很浪费系统资源,所以引入了mmap分配阈值动态调整机制,保证在必要的情况下才使用mmap分配内存。
4、尽量只缓存临时使用的空闲小内存块,对大内存快或是长生命周期的大内存块在释放时都直接归还给操作系统。
5、对空闲的小内存块只会在malloc和free的时候进行合并,free时空闲内存块可能放入bin中,不一定归还给操作系统。
6、收缩堆的条件是当前free的块大小加上前后能合并chunk的大小大于64KB,并且堆顶的大小达到阈值,才有可能收缩堆,把堆最顶端的空闲内存返回给操作系统。
7、需要长期存储的程序不适合用ptmalloc来管理内存。
8、为了支持多线程,多个线程可以从同一个分配区中分配内存,ptmalloc假设线程A释放掉一块内存后,线程B会申请类似大小的内存,但是A释放的内存跟B需要的内存不一定完全相等,可能有稍许误差,就需要不停的对内存块进行切割和合并,这个过程可能产生内存碎片。
内存分配
1、获取分配区的锁,为了防止多个线程同时访问同一个分配区,在进行分配之前需要取得分配区域的锁。先查看线程私有实例中是否已经存在一个分配区,如果存在尝试对该分配区加锁,如果加锁成功,使用该分配区分配内存,否则该线程搜索分配区循环链表试图获得一个空闲(没有加锁)的分配区。如果所有的分配区都已经加锁,那么ptmalloc会开辟一个新的分配区,把该分配区加入到全局分配区循环链表和线程的私有实例中并加锁,然后使用该分配区进行分配操作。开辟出来的新分配区一定为非主分配区,因为主分配区是从父进程那里继承来的。开辟非主分配区时会调用mmap()创建一个sub-heap,并设置好top chunk;
每一个进程只有一个主分配区(main_arena)和若干非主分配区(non_main_arena),各arena通过一个循环链表来管理,通过互斥锁(mutex)使线程对于该分配区的访问互斥。
通过chunk倒数第三个标志位区分是否为非主分配区。
2、将用户的请求大小转换为实际需要分配的chunk空间大小
加上chunk头部,并进行字节对齐,默认8字节对齐。
事实上,由于chunk的空间复用,例如32位系统,实际的chunk大小=(用户请求大小 + 8 - 4) align to 8B
3、判断所需分配chunk的大小是否满足<=max_fast(32位默认为64B),如果是,则转下一步,否则跳到第五步。
4、首先尝试在fast bin中取一个所需大小的chunk分配给用户。如果可以找到,则分配结束,否则转下一步。
fast bins的分配遵循后进先出(LIFO)原则,类似于栈。
fast bins包含10个bin,大小从16B到88B,相邻bin相差8B,其中只有前七个作为空闲chunk链使用。
fast bins中的chunk不会修改最后一个标志位,因此fast bin中的chunk不会合并。
5、判断所需大小是否处在small bin中,即判断chunk_size < 512B是否成立。如果chunk大小处在small bins中,则转下一步,否则转到第6步。
ptmalloc维护了一个bin数组,共有128项,其中序号为2-63的62项为small bin。
small bin中每个bin中的块大小相同,相邻bin相差8B,最小的16B,最大的504B,每个bin中都是双向循环链表。
分配时按照“small-first, best-fit”原则。
6、根据所需分配的chunk的大小,找到具体所在的某个small bin,从该bin的尾部摘取一个恰好满足大小的chunk。若成功,则分配结束,否则转下一步。
7、到了这一步,说明需要分配的是一块大的内存,或者small bins中找不到合适的chunk。于是,ptmalloc首先会遍历fast bins中的chunk,将相邻的chunk进行合并,并链接到unsorted bin中,然后遍历unsorted bin中的chunk,如果unsorted bin只有一个chunk,并且这个chunk在上次分配时被使用过,并且所需分配的大小属于small bins,并且chunk的大小大于等于需要分配的大小,这种情况下就直接将该chunk进行切割,分配结束,否则将根据chunk的空间大小将其放入small bins或是large bins中,遍历完成后,转入下一步。
ptmalloc中的bins数组第一个就是unsorted bin,序号为1。
双向链表管理空闲chunk,不排序,当释放chunk时,大小大于max_fast的首先链入unsorted bin中。
可看作是small bins和large bins的cache。
8、到了这一步,说明需要分配的是一块大的内存,或者small bins和unsorted bin中都找不到合适的chunk,并且fast bins和unsorted bin中所有的chunk都清除干净了。从large bins按照“small-first, best-fit”原则,找到一个合适的chunk,从中划分一块所需大小的chunk,并将剩下的部分链接回bins中。若操作成功,则分配结束,否则转下一步。
bins数组序号为64-126的63个bin为large bins。
large bins中的chunk链大小并不是一个固定公差的等差数列,而是分成6组bins,每组bins是一个固定的等差数列,每组的bin数目依次是32、16、8、4、2、1,公差依次是64B、512B、4096B、32768B、262144B等。
9、如果搜索fast bins和bins都没有找到合适的chunk,那么就需要操作top chunk来进行分配了。判断top chunk大小是否满足所需chunk的大小,如果是,则从top chunk中分出一块来,否则转下一步。
chunk中有三种并非按照bins结构存储,分别是top chunk、mmaped chunk、last remainder。
top chunk:对于非主分配区会预先分配一块较大的空闲内存模拟sub-heap,通过管理sub-heap来响应用户的需求,因为内存是按地址从高到底进行分配的,在空闲区的最高处,必然存在一块空闲chunk,叫做top chunk;由于主分配区是唯一能够映射到进程heap区域的分配区,它可以通过sbrk()来增大或是收缩进程heap的大小,ptmalloc在开始时会预先分配一块较大的空闲内存(heap)。
mmaped chunk: 当需要分配的chunk足够大,而且fast bins和bins都不能满足要求,甚至top chunk本身也不能满足要求时,ptmalloc会使用mmap来直接使用内存映射来将页映射到进程空间。这样分配的chunk在被free时,将直接解除映射,于是就将内存归还给了操作系统。
last remainder: 不存在于任何bins中,当需要分配一个small chunk时,但在small bins中找不到合适的chunk,如果last remainder chunk的大小大于所需的small chunk大小,last remainder chunk被分裂为两个,其中一个chunk返回给用户,另一个变成新的last remainder chunk。
10、到了这一步,说明top chunk也不能满足分配要求,所以,于是就有了两个选择:如果是主分配区,调用sbrk(),增加top chunk大小;如果是非主分配区,调用mmap来分配一个新的sub-heap,增加top chunk大小;或者使用mmap来直接分配。在这里,需要依靠chunk的大小来决定到底使用哪种方法。判断所需分配的chunk大小是否大于等于mmap分配阈值,如果是的话,则转下一步,调用mmap分配,否则跳到第12步,增加top chunk的大小。
对于非主分配区,当bins和fast bins都不能满足分配的需要,ptmalloc会设法在top chunk分出一块内存给用户,如果top chunk本身不够大,分配程序会重新分配一个sub-heap,并将top chunk迁移到新的sub-heap上,新的sub-heap与已有的sub-heap用单链表连接起来,然后在新的top chunk上分配。
11、使用mmap系统调用为程序的内存空间映射一块chunk_size align 4KB大小的空间,然后将内存指针返回给用户。
12、判断是否为第一次调用malloc,若是主分配区,则需要进行一次初始化工作,分配一块大小为(chunk_size + 128KB)align 4KB大小的空间作为初始的heap。若已经初始化过了,主分配区则调用sbrk()增加heap空间,非主分配区则在top chunk中切出一个chunk,使之满足分配需求,并将内存指针返回给用户。
内存回收
1、free()函数同样首先需要获取分配区的锁,来保证线程安全。
2、判断传入的指针是否为0,若为0,则什么都不做,直接return,否则转下一步。
3、判断所需释放的chunk是否为mmaped chunk,如果是,则调用munmap()释放mmaped chunk,解除内存空间映射,该空间不再有效。如果开启了mmap分配阈值的动态调整机制,并且当前回收的chunk大小大于mmap分配阈值,将mmap分配阈值设置为该chunk的大小,将mmap收缩阈值设定为mmap分配阈值的2倍,释放完成。否则下一步。
4、判断chunk的大小和所处的位置,若chunk_size<=max_fast,并且chunk不位于heap顶部,也就是说并不与top chunk相邻,则转到下一步,否则跳到第6步。(因为与top chunk相邻的小chunk也和top chunk进行合并,所以这里不仅需要判断大小,还需要判断相邻情况)
5、将chunk放到fast bins中,chunk放入到fast bins中时,并不修改该chunk使用状态位P。也不与相邻的chunk进行合并。只是放进去,释放结束,返回。
6、判断前一个chunk是否处在使用中,如果前一个块也是空闲块,则合并,并转下一步。
7、判断当前释放块的下一个块是否为top chunk,如果是,转第9步,否则转下一步。
8、判断下一个chunk是否处在使用中,如果下一个chunk也是空闲的,则合并,并将合并后的chunk放到unsorted bin中。注意,这里在合并的过程中,要更新chunk的大小,以反映合并后的chunk的大小,并转到10步。
9、如果执行到这一步,说明释放了一个与top chunk相邻的chunk。则无论它有多大,都将它与top chunk合并,并更新top chunk的大小等信息,转下一步。
10、判断合并后的chunk的大小是否大小FASTBIN_CONSOLIDATION_THRESHOLD(默认64KB),如果是的话,则会触发进行fast bins的合并操作,fast bins中的chunk将被遍历,并与相邻的空间chunk进行合并,合并后的chunk会被放到unsorted bin中。fast bins将变空,操作完成转下一步。
11、判断top chunk的大小是否大于mmap的收缩阈值(默认为128KB),如果是的话,对于主分配区,则会试图归还top chunk中的一部分给操作系统。但是最先分配的128KB是不会归还的,ptmalloc会一直管理这部分内存,用于响应用户的分配请求;如果为非主分配区,会进行sub-heap收缩,将top chunk的一部分返回给操作系统,如果top chunk为整个sub-heap,会把整个sub-heap还回给操作系统。做完这一步后,释放结束,返回。可以看出,收缩堆的条件是当前free的chunk大小加上前后能合并chunk的大小大于64KB,并且要top chunk的大小要达到mmap收缩阈值,才有可能收缩堆。