linux内核分析 第八周读书笔记
第四章 进程调度
4.1 多任务
1、多任务操作系统就是能同时并发的交互执行多个进程的操作系统。
2、多任务操作系统使多个进程处于堵塞或者睡眠状态,实际不被投入执行,这些任务尽管位于内存,但是并不处于可运行状态。
3、多任务系统分类:
(1)非抢占式多任务
(2)抢占式多任务
4、Linux提供了抢占式的多任务模式。在此模式下,由调度程序来决定什么时候停止一个进程的运行,以便其他进程能够得到执行机会。这个强制的挂起动作叫做抢占。进程被抢占之前能够运行的时间是预先设置好的,叫进程的时间片。时间片实际上就是分配给每个可运行进程的处理器时间段。
5、在非抢占式多任务模式下,除非进程自己主动停止运行,否则它会一直执行。进程主动挂起自己的操作称为让步。但这种机制有很多缺点:调度程序无法躲每个进程该执行多长时间作出统一规定,所以进程独占的处理器时间可能会超过用户的预料:更糟的是,一个绝不做出让步的悬挂进程就能使系统崩溃。
4.2Linux的进程调度
1、O(1)调度器拥有数以十计的多处理器的环境,但缺少交互进程。
2、反转楼梯最后期限调度算法(RSDL),吸取了队列理论,公平调度。又被称为完美公平调度算法(CFS)。
4.3策略
1、决定调度程序在何时让进程运行。
4.3.1 I/O消耗型和处理器消耗型的进程
1、进程可以分为:
(1)I/O消耗型:进程的大部分时间用来提交I/O请求或者等待I/O请求,经常处于可运行状态但是运行时间很短,等待更多的请求时最后总会阻塞。
(2)处理器消耗型:把时间大多用在执行代码上,除非被抢占,否则通常都会不停地运行。因为它们没有太多的I/O需求。不属于I/O驱动类型。
2、调度策略:尽量降低它们的调度频率,延长其运行时间。
3、调度策略通常要在两个矛盾的目标中间寻找平衡:
(1)进程调度迅速(响应时间短)
(2)最大系统利用率(高吞吐量)
4、Linux倾向于优先调度I/O消耗型进程。
4.3.2 进程优先级
1、调度算法中最基本的一类就是基于优先级的调度,这是一种根据进程的价值和其对处理器时间的需求来对进程分级的想法。
2、调度程序总是选择时间片未用尽而且优先级最高的进程运行。
3、 Linux采用了两种不同的优先级范围:
(1)nice
范围[-20,19],默认值为0;nice值越大,优先级越低;
Linux系统中nice值代表时间片的比例,可以通过ps-el命令查看系统中进程列表,结果中标记NI的一列及时进程对应的nice值。
(2)实时优先级
其值可以配置,默认变化范围是[0,99];值越高优先级越高;
4、任何实时进程的优先级都高于普通的进程,也就是说实时优先级和nice优先级处于互不相交的两个范畴。
5、通过命令ps-eo state,uid,pid,ppid,rtprio,time,comm.查看系统中的进程列表以及对应的实时优先级(位于RTPRIO列下),其中如果有进程对应列显示“-”则说明它不是实时进程。
4.3.3 时间片
1、时间片表示进程在被抢占前所能持续运行的时间。
2、I/O消耗型进程不需要很长的时间片,而处理器消耗型进程希望时间片越长越好。
3、Linux的CFS调度器没有直接分配时间片到进程,而是将处理器的使用比划分给进程。这样一来,进程所获得的处理器时间和系统负载密切相关。这个比例受nice值影响,nice值作为权重来调整进程所使用的处理器时间使用比。
4、Linux系统是抢占式的,是否要将一个进程立刻投入运行(也就是抢占当前进程),是完全由进程的优先级和是否有时间片来决定。
5、CFS调度器:抢占时机取决于新的可执行程序消耗了多少处理器使用比,如果消耗的使用比当前进程小:新程序立刻投入运行,抢占当前进程,否则推迟。
4.3.4 调度策略的活动
1、文字编辑程序显然是 1/0 消耗型的,因为它大部分时间都在等待用户的键盘输入(无论用户的输入速度有多快,都不可能赶上处理的速度)用户总是希望按下键系统就能马上响应。
2、视频编码程序是处理器消耗型的。
3、CFS总是会毫不犹豫地让文本编辑器在需要时被投入运行,而让视频处理程序只能在剩下的时刻运行。
4.4 Linux调度算法
4.4.1 调度器类
1、Linux调度器是以模块方式提供,目的是允许不同类型的进程可以有针对性地选择调度算法。这种模块化结构被称为调度器类,它允许多种不同的可动态添加的调度算法并存,调度属于自己范畴的进程。
2、基础的调度器代码定义在kernel/sched.c文件中。
3、每个调度器有一个优先级,会按照优先级顺序遍历调度类,选择优先级最高的调度器类。
4、完全公平调度CFS是一个针对普通进程的调度类。
4.4.2 Unix系统中的进程调度
1、Unix使用的调度算法是分配绝对的时间片,这样就会引发固定的切换频率,不利于公平性。而Linux采用的CFS完全摒弃了时间片,分配给进程一个处理器使用比重,保证恒定的公平性和变动的切换频率。
4.4.3 公平调度
1、CFS的做怯是允许每个进程运行一段时间、循环轮转、选择运行最少的进程作为下一个运行进程,而不再采用分配给每个进程时间片的做法了,在所有可运行进程总数基础上计算出一个进程应该运行多久。而不是依靠nice 值来计算时间片。
2、nice 值在 CFS 中被作为进程获得的处理器运行比的权重:越高的nice 值(越低的优先级)进程获得更低的处理器使用权重。
3、目标延迟:无限小调度周期的近似值
4、最小粒度:每个进程获得的时间片底线,默认为1ms。
5、任何进程所获得的处理器时间是由它自己和其他所有可运行进程nice 值的相对差值决定的。
4.5 Linux调度的实现
1、CFS调度算法的实现:
四个组成部分:
(1)时间记账
(2)进程选择
(3)调度器入口
(4)睡眠和唤醒
4.5.1 时间记账
1、所有的调度器都必须对进程运行时间做记账。
2、CFS 使用调度器实体烦结构(定义在文件<linux/sched.h>的 struct_sched _entity 中)来追踪进程运行记账。
调度器实体结构作为一个名为se的成员变量,嵌入在进程描述符struct task_struct内。
2.虚拟实时
Vruntime变量存放进程的虚拟运行时间,该运行时间的计算是经过了所有可运行进程总数的标准化。虚拟时间以ns为单位,所以和定时器街拍不再相关。CFS使用vruntime变量来记录一个程序到底运行了多长时间以及它还应该再运行多久。
Update_curr()计算了当前进程的执行时间,并且将其存放在变量delta_exec中。然后他把运行时间传递给__update_curr(),由后者再根据当前可运行进程总数对运 行时间进行加权计算,最终将上述的权值与当前运行进程的vruntime相加。
Update_curr()由系统计数器周期性调用。
4.5.2进程选择
CFS调度算法的核心:选择具有最小vruntime值得进程。
CFS使用红黑树来组织可运行进程队列,并利用其迅速找到最小vruntime值得进程。
1.挑选下一个任务
CFS的进程选择算法可总结为“运行rbtree树中最左边叶子节点所代表的那个进程。”实现这一过程的函数是__pick_next_entity()。
2.向树中加入进程
发生在进程变为可运行状态(被唤醒)或者通过fork()调用第一次创建进程时。enqueue_entity()函数实现了这一目的。
该函数更新运行时间和其他一些统计数据,然后调用__enqueue_entity()进行繁重的插入操作,把数据项真正插入到红黑色树中。
3.从树中删除进程
删除动作发生在进程堵塞或者终止时。
4.5.3调度器入口
进程调度的主要入口点是函数schedule(),它是内核其他部分用于调用进程调度器的入口:选择哪个进程可以运行,何时将其投入运行。该函数中唯一重要的是调用pick_next_task(),该函数会以优先级为序,从高到低,一次检查每一个调度类,并且从最高优先级的调度类中,选择最高优先级的进程。该函数的核心是for()循环,实现了遍历。
4.5.4睡眠和唤醒
休眠:进程把自己标记成休眠状态,从可执行红黑树中移出,放入等待队列,然后调用schedule()选择和执行一个其他进程。
唤醒:进程被置为可执行状态,然后在从等待队列中移到可执行红黑树中。
休眠有两种相关的进程状态:TASK_INTERRUPTIBLE和TASK_UNINTERRUPTIBLE。他们唯一的区别是TASK_UNINTERRUPTIBLE的进程会忽略信号,而TASK_INTERRUPTIBLE状态的进程如果接收到一个信号,会被提前唤醒并响应该信号。两种状态的信号位于同一等待队列上,等待某些事件,不能够运行。
1.等待队列
进程通过下面几个步骤把自己加入一个等待队列:
2.唤醒
通过函数wake_up()进行,它会唤醒指定的等待队列上的所有进程。它调用函数try_to_wake_up(),该函数负责将进程设置为TASK_RUNNING状态,调用enqueue_task()将此进程放入红黑树中,如果被唤醒的进程优先级比当前就正在执行的进程优先级高,还要设置need_resched标志。
4.6 抢占和上下文切换
1、上下文切换,也就是从一个可执行进程切换到另一个可执行进程,由定义在 kernel/ sched.c 中的 context_switch()函数负责处理。
2、每当一个新的进程被选出来准备投入运行的时候, schedule()就会调用该函数。它完成了两项基本的工作:
(1)调用声明在 <asm/mmu_ context.h>中的 switch_mm(),该函数负责把虚拟内存从上一个进程映射到新进程中。
(2)调用声明在 <asm/system.h> 中的 switch_to(),该函数负责从上一个进程的处理器状态切换到新进程的处理器状态。这包括保存、恢复栈信息和寄存器信息,还有其他任何与体系结构相关的状态信息,都必须以每个进程为对象进行管理和保存。
3、内核提供了一个need_resched标志来表明是否需要重新执行一次调度。当某个进程应该被抢占时,scheduler_tick()会设置这个标志:当一个优先级高的进程进入可执行状态时,try_to_wake_up()会设置这个标志。内核检查这个标志确认其被设置,调用schedule()来切换到一个新的进程。该标志对于内核来说是一个信息,表示youqitajinc应当被运行了,要尽快调用调度程序。再返回用户空间以及从中断返回时,内核也会检查标志。每个进程都包含一个need_resched标志,因为访问进程描述符里的数值比访问一个全局变量要快。
4.6.1 用户抢占
1、内核即将返回用户空间的时候,如果need_resched标志被设置,会导致schedule()被调用,此时会发生用户抢占。
2、用户抢占在以下情况时产生:
(1)从系统调返回用户空间时;
(2)从中断处理程序返回用户空间时;
4.6.2 内核抢占
1、Linux完整地支持内核抢占。
2、只要重新调度是安全的,内核就可以在任何时间抢占正在执行的任务。
3、内核抢占会发生在:
(1)中断处理程序正在执行,且返回内核空间之前
(2)内核代码再一次具有可抢占性的时候。
(3)如果内核中的任务显式地调用 schedule()
(4)如果内核中的任务阻塞(这同样也会导致调用schedule())。
4.7 实时调度策略
1、Linux提供了两种实时调度策略:SCHED_FIFO和 SCHED_RR。而普通的、非实时的调度策略是SCHED_NORMAL。
2、SCHED_FIFO 实现了一种简单的、先入先出的调度算法。
3、SCHED_RR 是带有时闹片的 SCHED_FIFO,一种实时轮流调度算法。
4、这两种实时算法实现的都是静态优先级。内核不为实时进程计算动态优先级,这能保证给定优先级别的实时进程总能抢占优先级比它低的进程。
5、软实时:内核调度进程,尽力使进程在它的限定时间到来前进行,但内核不保证总能满足这些进程的要求。
6、硬实时:系统保证在一定条件下,可以满足任何调度的要求。
7、优先级范围
(1)实时:
范围:0~[MAX_RT_PRIO-1]。
默认MAX_RT_PRIO=100,所以默认实时优先级范围为[0,99]
(2)SCHED_NORMAL:
范围: [MAX_RT_PRIO]~[MAX_RT_PRIO+40]
默认情况下,nice值从-20到+19对应的是从100到139的实时优先级范围。
4.8 与调度相关的系统调用
4.8.1 与调度策略和优先级相关的系统调用
1、sched_setparam()和sched__getparam()分别用于设置和获取进程的实时优先级
2、nice()函数可以将给定进程的静态优先级增加一个给定的量,只有超级用户才能在调用它时使用负值,从而提高进程的优先级。
3、nice()函数会调用内核的 set_ user_ nice()函数,这个函数会设置进程的 task_struct 的 static_prio 和prio 值。
4.8.2 与处理器绑定有关的系统调用
1、Linux调度程序提供强制的处理器绑定机制。也就是说,虽然它尽力通过一种软的亲和性试图使进程尽量在同一个处理器上运行,但它也允许用户强制指定“这个进程无论如何都必须在这些处理器上运行”。 这种强制的亲和性保存在进程task_struct的cpus_allowed这个位掩码标志中。
2、进程只运行在指定处理器上,对处理器的指定是由该进程描述符的 cpus_allowed 域设置的。
4.8.3 放弃处理器时间
1、Linux通过 sched_yieldO 系统调用,提供了一种让进程显式地将处理器时间让给其他等待执行进程的机制。
2、内核代码为了方便,可以直接调用yield(),先要确定给定进程确实处于可执行状态,然后再调用 sched__yield()。
3、用户空间的应用程序直接使用 sched__yield()系统调用就可以了。