《深入理解Linux内核3rd》学习笔记——进程描述符
进程描述符(Process Descriptor),顾名思义,就是进程的描述,即用来描述进程的数据结构,可以理解为进程的属性。比如进程的状态、进程的标识(PID)等,都被封装在了进程描述符这个数据结构中,该数据结构被定义为task_struct。
进程状态
Linux中的进程有7种状态,进程的task_struct结构的state字段指明了该进程的状态。
可运行状态(TASK_RUNNING)
可中断的等待(TASK_INTERRUPTIBLE)
不可中断的等待(TASK_UNINTERRUPTIBLE)
暂停状态(TASK_STOPPED)
跟踪状态(TASK_TRACED):进程被调试器暂停或监视。
僵死状态(EXIT_ZOMBIE):进程被终止,但父进程未调用wait类系统调用。
僵死撤销状态(TASK_DEAD):父进程发起wait类系统调用,进程由系统删除。
标识一个进程
标识进程的两种方法:进程描述符地址、PID。PID的值保存在task_struct结构的pid字段中。
能够被独立调度的执行上下文都有自己的进程描述符,因此,轻量级进程(LWP)也有自己的task_struct结构。
Linux把不同的PID分配给每个进程和LWP(类似地,Windows中也是将PID和TID分配给每个进程和线程,且PID和TID不会相同,注,这里Linux中的LWP类似于Windows中的线程)。
Linux中还有线程组的概念,一个线程组的所有线程使用该线程组领头线程的PID,即该组中第一个LWP的PID。这个线程组的PID保存在task_struct结构的tpid字段中,线程组领头线程的tpid和pid的值相同。
得到进程描述符地址
Linux中,有2个数据结构被紧凑地放在了一起:进程的内核堆栈,thread_info(线程描述符)。一般地,这两个数据结构大小为8192个字节,放在两个连续的页面中,首地址为213的倍数。8KB对于内核堆栈和thread_info来说已经足够了(也可以在编译内核时设置,让这两个数据结构占用一个页面)。这个8KB的起始存放thread_info结构,内核堆栈从末端向下增长。在thread_info结构中,有一个指向进程描述符的指针task,利用该指针可以找到task_struct结构地址。在task_struct结构中,也有一个thread_info指针,指向thread_info结构。
因为thread_info和内核堆栈被紧凑地存放在一起,因此,可以从内核堆栈找到thread_info结构地址,继而通过thread_info结构的task指针找到task_struct结构指针。对于8KB而言,得到esp中的值,然后将该值与上0xffffe000,即将低13位清零,就得到了thread_info的地址,然后就可以得到task_struct的地址。
进程链表
Linux中将多个进程组织成循环双链表的结构,进程链表头是init_task描述符,即0进程或swapper进程的描述符。通过task_struct结构中tasks字段,将多个进程连接成链表的结构。
早期的Linux版本中,把所有TASK_RUNNING状态的进程放在一个运行队列中,这样,按照优先级排序该链表的开销比较大,早期的调度程序不得不遍历整个链表来选择最佳的进程。
Linux 2.6中的运行队列不同,系统中建立了多个可运行进程链表,即运行队列中包含多个可运行进程链表。每个可运行进程链表对应一个优先级,优先级取值为0~139。假定某个进程优先级为k,那么该进程的task_struct结构中run_list字段就将其连接到优先级为k的可运行进程链表中。另外,在多处理器系统中,每个CPU都有它自己的运行队列。这么多可运行进程链表由prio_array_t数据结构来管理。
进程间关系
进程之间有父子关系,如果一个进程创建多个子进程,那这些子进程之间就有了兄弟关系。Linux中,进程0和进程1由内核创建,进程1(init)是其他所有进程的祖先。
在进程描述符表task_struct结构中,以下字段表示进程间的关系:
real_parent:指向创建进程P的进程的描述符,如果P的父进程不存在,就指向进程1的描述符。
parent:指向P的当前父进程,往往与real_parent一致。当出现Q进程向P发出跟踪调试ptrace()系统调用时,该字段指向Q进程描述符。
children:一个链表头,链表中所有元素都是进程P创建的子进程。
sibling:指向兄弟进程链表的下一个元素或前一个元素的指针。
另外,进程间还存在其他关系:登录会话关系、进程组关系、线程组关系、跟踪调试关系。
在task_struct结构中,以下字段表示这些关系(假设当前进程为P):
group_leader:P所在进程组的领头进程的描述符指针
signal->pgrp:P所在进程组的领头进程的PID
tgid:P所在线程组的领头进程的PID
signal->session:P所在登录会话领头进程的PID
ptrace_children:一个链表头,链表中的所有元素是被调试器程序跟踪的P的子进程
ptrace_list:当P被调试跟踪时,指向调试跟踪进程的父进程链表的前一个和下一个元素
PID导出进程描述符
有些情况需要从PID得到响应的进程描述符指针,比如kill()系统调用。由于顺序扫描进程链表并检查进程描述符的pid字段是比较低效的,因此引入了4个哈希表:
PIDTYPE_PID
PIDTYPE_TGID
PIDTYPE_PGID
PIDTYPE_SID
这四个哈希表在内核初始化时动态地分配空间,它们的地址被存入pid_hash数组,其长度依赖于RAM容量。利用pid_hashfn可以将PID转化为表索引。
为了防止出现哈希运算带来的冲突,Linux采用拉链法来解决,即引入具有链表的哈希表来处理。
进程组织
运行队列的链表把TASK_RUNNING状态的所有进程组织在一起。对于其他状态的进程,Linux做如下处理:
- TASK_STOPPED、EXIT_ZOMBIE、EXIT_DEAD状态的进程,Linux并没有为它们建立专门的链表,因为访问简单。
- TASK_INTERRUPTIBLE、TASK_UNINTERRUPTIBLE状态的进程被分为很多类,每一类对应一个特定的事件。在这种状态下,进程状态无法提供足够的信息来快速的得到进程,因此引入额外的进程链表是必要的。这些链表称为“等待队列”。
等待队列的用途很多,比如中断处理、进程同步、定时等。
等待队列由双链表实现,每个等待队列都有一个队头,这是一个wait_queue_head_t的数据结构。该数据结构中有一个spinlock_t类型的lock变量,这是一个自旋锁,用来保证等待队列被互斥的访问和操作。
等待队列中元素的类型是wait_queue_t,该数据结构中有一个task字段,是一个进程描述符的指针;有一个func字段,是一个函数指针,表示进程的如何唤醒(即唤醒时调用该函数);还有一个flags字段,决定了相关进程是互斥进程(flags = 1)还是非互斥进程(flags = 0)。
这里解释下互斥进程与非互斥进程。非互斥进程总是由内核在事件发生时唤醒;互斥进程则是由内核在事件发生时有选择地唤醒,比如访问临界区的进程。
进程资源限制
每个进程都有一组相关的资源限制,指明了进程能够使用的系统资源数量。避免进程过度使用系统资源(CPU、磁盘空间等)。
进程资源的限制存放在进程描述符的signal->rlim字段中,该字段是一个类型为rlimit结构的数组,数组中每个元素对应一种资源。
用getrlimit()和setrlimit()系统调用,用户能够增加当前资源限制的上限。
如果资源限制值为RLIMIT_INFINITY(0xffffffff),就意味着没有对应的资源限制。
总结
进程描述符(task_struct)某些字段含义,假设进程为P。
- state:P进程状态,用set_task_state和set_current_state宏更改之,或直接赋值。
- thread_info:指向thread_info结构的指针。
- run_list:假设P状态为TASK_RUNNING,优先级为k,run_list将P连接到优先级为k的可运行进程链表中。
- tasks:将P连接到进程链表中。
- ptrace_children:链表头,链表中的所有元素是被调试器程序跟踪的P的子进程。
- ptrace_list:P被调试时,链表中的所有元素是被调试器程序跟踪的P的子进程。
- pid:P进程标识(PID)。
- tgid:P所在的线程组的领头进程的PID。
- real_parent:P的真实的父进程的进程描述符指针。
- parent:P的父进程的进程描述符指针,当被调试时就是调试器进程的描述符指针。
- children:P的子进程链表。
- sibling:将P连接到P的兄弟进程链表。
- group_leader:P所在的线程组的领头进程的描述符指针。