Linux内核分析--基于myKernel展示的进程调度
原创作品转载请注明出处
参考:https://github.com/mengning/linuxkernel/
软件学院编号:372
1.用到的工具
- 内核代码:点此前往Github查看 (感谢孟宁老师提供的myKernel精简内核。)
- Ubuntu虚拟机:运行环境,本次使用VM Ware安装的Ubuntu14。
- QEMU:本次使用的模拟器,运行内核代码。
2.相关知识及过程
中断是指在CPU正常运行期间,由于内外部事件或由程序预先安排的事件引起的CPU暂时停止正在运行的程序,转而为该内部或外部事件或预先安排的事件服务的程序中去,服务完毕后再返回去继续运行被暂时中断的程序。
首先我们通过设定中断发生时打印制定内容来观察Linux内核的中断机制。
操作系统的主要功能是处理器管理、存储器管理、设备管理、文件管理、作业管理。本次着重分析其作业管理功能,即操作系统的进程调度。
现今主流使用的操作系统(Windows,Linux,OS X)都支持多进程,多个进程运行时最重要的是如何将有限的资源分配给进程使用,或者形象的说CPU在什么时间运行哪个程序,研究一个精简内核的进程调度有助于我们更深刻的理解操作系统的进程调度。本次以myKernel内核为参考,运行于QEMU模逆环境+Linux内核版本3.9.4,模拟操作系统的进程调度。
过程如下(terminal中依次执行以下指令):
sudo apt-get install qemu # install QEMU //安装QEMU
sudo ln -s /usr/bin/qemu-system-i386 /usr/bin/qemu
wget https://www.kernel.org/pub/linux/kernel/v3.x/linux-3.9.4.tar.xz # download Linux Kernel 3.9.4 source code //下载3.9.4内核
wget https://raw.github.com/mengning/mykernel/master/mykernel_for_linux3.9.4sc.patch # download mykernel_for_linux3.9.4sc.patch
xz -d linux-3.9.4.tar.xz
tar -xvf linux-3.9.4.tar
cd linux-3.9.4
patch -p1 < ../mykernel_for_linux3.9.4sc.patch
make allnoconfig //最小化运行,不需要多的模块
make
qemu -kernel arch/x86/boot/bzImage 从qemu窗口中您可以看到my_start_kernel在执行,同时my_timer_handler时钟中断处理程序周期性执行。
cd mykernel 您可以看到qemu窗口输出的内容的代码mymain.c和myinterrupt.c
当前有一个CPU执行C代码的上下文环境,同时具有中断处理程序的上下文环境,我们初始化好了系统环境。
您只要在mymain.c基础上继续写进程描述PCB和进程链表管理等代码,在myinterrupt.c的基础上完成进程切换代码,一个可运行的小OS kernel就完成了。
start to write your own OS kernel,enjoy it!
3.运行结果及分析
3.1 中断处理
中断运行效果图1
中断运行效果图2
内核在运行时,会周期性的触发中断,检查是否有中断需要处理;如果有中断请求,那么执行中断处理;否则,继续执行当前程序。
设定当内核正常运行时,周期性的打印
"my_start_kernel here %d \n",i"
这行内容;当中断触发时,在此在屏幕上打印出
">>>>>>>>>>>>>>>>my_timer_handler here<<<<<<<<<<<<<<<<<<"
这行内容。
如上图所示,内核的确是周期性的触发中断。
3.2 进程调度
先看效果,再分析代码。
process[0]正在运行
进程正常运行时,会打印出当前正在运行的进程号,即pid。
从process[3]切换至process[0]
代码分析:
PS:进程初始化、运行等过程不赘述,在文末将贴出完整代码,此处着重关注进程切换过程
process结构体定义:
struct Thread {
unsigned long ip;
unsigned long sp;
};
typedef struct PCB{
int pid;
volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */
unsigned long stack[KERNEL_STACK_SIZE];
/* CPU-specific state of this task */
struct Thread thread;
unsigned long task_entry;
struct PCB *next;
}tPCB;
main()部分代码(进程运行,调度):
void my_process(void)
{
while(1)
{
i++;
if(i%10000000 == 0)
{
printk(KERN_NOTICE "this is process %d -\n",my_current_task->pid);
if(my_need_sched == 1)
{
my_need_sched = 0;
my_schedule();
}
printk(KERN_NOTICE "this is process %d +\n",my_current_task->pid);
}
}
}
**进程切换代码:**
void my_timer_handler(void)
{
if(time_count%1000 == 0 && my_need_sched != 1)
{
printk(KERN_NOTICE ">>>my_timer_handler here<<<\n");
my_need_sched = 1;
}
time_count ++ ;
return;
}
void my_schedule(void)
{
tPCB * next;
tPCB * prev;
if(my_current_task == NULL
|| my_current_task->next == NULL)
{
return;
}
printk(KERN_NOTICE ">>>my_schedule<<<\n");
/* schedule */
next = my_current_task->next;
prev = my_current_task;
if(next->state == 0)/* -1 unrunnable, 0 runnable, >0 stopped */
{
my_current_task = next; //当前进程为next,逻辑上切换,实际寄存器内尚未更换
printk(KERN_NOTICE ">>>switch %d to %d<<<\n",prev->pid,next->pid);
/* switch to next process */
asm volatile(
"pushl %%ebp\n\t" /* save ebp */ //将pre的ebp存在prev的栈顶
"movl %%esp,%0\n\t" /* save esp */ //将prev当前的esp存入prev->thread.sp变量中存起来
"movl %2,%%esp\n\t" /* restore esp */ //从这里开始,寄存器esp现在指向的sp切换到next的sp去了,堆栈顶指针实现了更换
"movl $1f,%1\n\t" /* save eip */ /*将标记1处的地址存入prev->thread.ip,这样调度回到prev进程
时,会从标记处执行命令,即将本段代码开头push进prev堆栈的ebp值取出至寄存器的ebp中,实现实际栈底指针的切换*/
"pushl %3\n\t" //将next的ip存入next的堆栈顶部,下行会用到
"ret\n\t" /* restore eip */ /*ret会弹出堆栈顶部的内容至ip,结合上条指令,
实现了ip寄存器内的内容换为next->thread.ip,这样接下来执行的指令会是
next进程希望的指令,然后跳出此处的花括号,回到命令执行*/
"1:\t" /* next process start here */ //此处为标志位,除第一次切换至某进程之外,
任何时候切换至该进程都会从此处开始*/
"popl %%ebp\n\t" /*进程再次执行时,会因为这条命令,将之前存的ebp
弹出至ebp寄存器,实现ebp寄存器值的切换*/
: "=m" (prev->thread.sp),"=m" (prev->thread.ip)
: "m" (next->thread.sp),"m" (next->thread.ip)
);
}
return;
}
具体切换过程分析请见"进程切换代码"内中文注释。
此处总结下切换过程。
以process[0]切换至process[1]来举例,1000次中断后,将my_need_sched置1,这样while(1)的循环会调用进程切换函数
void my_timer_handler(void)
{
if(time_count%1000 == 0 && my_need_sched != 1)
{
printk(KERN_NOTICE ">>>my_timer_handler here<<<\n");
my_need_sched = 1;
}
time_count ++ ;
return;
}
调用进程切换函数时,将所有命令按照其效果分为3个大类来理解
-
当前进程的ebp会压入当前进程的堆栈,并将当前进程的ip指向弹出储存的ebp至ebp寄存器的指令,保证了下次切换回本进程时,堆栈能够切换至本进程的堆栈;语句用①标记出;
-
切换过程中,会将即将切换至的进程的esp、ebp分别装载至对应的esp、ebp寄存器,实现堆栈切换至下一个进程;这类语句用②标记出;
-
通过push+ret,将porcess[1]的ip存入ip寄存器,实现从下一条指令开始运行process[1]进程;这类语句用③标记出;
asm volatile( ① "pushl %%ebp\n\t" /* save ebp */ //将pre的ebp存在prev的栈顶 "movl %%esp,%0\n\t" /* save esp */ //将prev当前的esp存入prev->thread.sp变量中存起来 ② "movl %2,%%esp\n\t" /* restore esp */ /*从这里开始,寄存器esp现在指向的sp切换到next的sp去了,堆栈 顶指针实现了更换*/ ① "movl $1f,%1\n\t" /* save eip */ /*将标记1处的地址存入prev->thread.ip,这样调度回到prev进程 时,会从标记处执行命令,即将本段代码开头push进prev堆栈的ebp值取出至寄存器的ebp中,实现实际栈底指针的切换*/ ③ "pushl %3\n\t" //将next的ip存入next的堆栈顶部,下行会用到 ③ "ret\n\t" /* restore eip */ /*ret会弹出堆栈顶部的内容至ip,结合上条指令, 实现了ip寄存器内的内容换为next->thread.ip,这样接下来执行的指令会是 next进程希望的指令,然后跳出此处的花括号,回到命令执行*/ ① "1:\t" /* next process start here */ /*此处为标志位,除第一次切换至某进程之外, 任何时候切换至该进程都会从此处开始*/ ① "popl %%ebp\n\t" /*进程再次执行时,会因为这条命令,将之前存的ebp 弹出至ebp寄存器,实现ebp寄存器值的切换*/ : "=m" (prev->thread.sp),"=m" (prev->thread.ip) : "m" (next->thread.sp),"m" (next->thread.ip) );
以上。通过解析代码和具体运行,可以帮助理解Linux内核进程调度的过程。再次感谢孟宁老师。
此处贴上关键的3个代码,在关键步骤添加了中文注解,方便自己回顾。
- mymain.c创建了排序并开始运行;
- mypcb.h定义了进程结构体;
- myinterrupt.c定义了切换规则和具体切换方法;
4.附录
mymain.c
/*
* linux/mykernel/mymain.c
*
* Kernel internal my_start_kernel
*
* Copyright (C) 2013 Mengning
*
*/
#include <linux/types.h>
#include <linux/string.h>
#include <linux/ctype.h>
#include <linux/tty.h>
#include <linux/vmalloc.h>
#include "mypcb.h"
tPCB task[MAX_TASK_NUM];
tPCB * my_current_task = NULL;
volatile int my_need_sched = 0;
void my_process(void);
void __init my_start_kernel(void)
{
int pid = 0;
int i;
/* Initialize process 0*/
task[pid].pid = pid;
task[pid].state = 0;/* -1 unrunnable, 0 runnable, >0 stopped */
task[pid].task_entry = task[pid].thread.ip = (unsigned long)my_process;
task[pid].thread.sp = (unsigned long)&task[pid].stack[KERNEL_STACK_SIZE-1];
task[pid].next = &task[pid];
/*fork more process */
for(i=1;i<MAX_TASK_NUM;i++)
{
memcpy(&task[i],&task[0],sizeof(tPCB));
task[i].pid = i;
//*(&task[i].stack[KERNEL_STACK_SIZE-1] - 1) = (unsigned long)&task[i].stack[KERNEL_STACK_SIZE-1];
task[i].thread.sp = (unsigned long)(&task[i].stack[KERNEL_STACK_SIZE-1]);
task[i].next = task[i-1].next;
task[i-1].next = &task[i];
}
/* start process 0 by task[0] */
pid = 0;
my_current_task = &task[pid];
asm volatile(
"movl %1,%%esp\n\t" /* set task[pid].thread.sp to esp */ //0进程esp存进寄存器esp
"pushl %1\n\t" /* push ebp */
"pushl %0\n\t" /* push task[pid].thread.ip */ //0进程的ip也是my_process()的地址,也即将该函数的地址推入ip,下行句子开始执行my_process()
"ret\n\t" /* pop task[pid].thread.ip to eip */ //开始执行my_process()
:
: "c" (task[pid].thread.ip),"d" (task[pid].thread.sp) /* input c or d mean %ecx/%edx*/
);
}
int i = 0;
void my_process(void)
{
while(1)
{
i++;
if(i%10000000 == 0)
{
printk(KERN_NOTICE "this is process %d -\n",my_current_task->pid);
if(my_need_sched == 1)
{
my_need_sched = 0;
my_schedule();
}
printk(KERN_NOTICE "this is process %d +\n",my_current_task->pid);
}
}
}
mypcb.h
/*
* linux/mykernel/mypcb.h
*
* Kernel internal PCB types
*
* Copyright (C) 2013 Mengning
*
*/
#define MAX_TASK_NUM 4
#define KERNEL_STACK_SIZE 1024*2
/* CPU-specific state of this task */
struct Thread {
unsigned long ip;
unsigned long sp;
};
typedef struct PCB{
int pid;
volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */
unsigned long stack[KERNEL_STACK_SIZE];
/* CPU-specific state of this task */
struct Thread thread;
unsigned long task_entry;
struct PCB *next;
}tPCB;
void my_schedule(void);
myinterrupt.c
/*
* linux/mykernel/myinterrupt.c
*
* Kernel internal my_timer_handler
*
* Copyright (C) 2013 Mengning
*
*/
#include <linux/types.h>
#include <linux/string.h>
#include <linux/ctype.h>
#include <linux/tty.h>
#include <linux/vmalloc.h>
#include "mypcb.h"
extern tPCB task[MAX_TASK_NUM];
extern tPCB * my_current_task;
extern volatile int my_need_sched;
volatile int time_count = 0;
/*
* Called by timer interrupt.
* it runs in the name of current running process,
* so it use kernel stack of current running process
*/
void my_timer_handler(void)
{
#if 1
if(time_count%1000 == 0 && my_need_sched != 1)
{
printk(KERN_NOTICE ">>>my_timer_handler here<<<\n");
my_need_sched = 1;
}
time_count ++ ;
#endif
return;
}
void my_schedule(void)
{
tPCB * next;
tPCB * prev;
if(my_current_task == NULL
|| my_current_task->next == NULL)
{
return;
}
printk(KERN_NOTICE ">>>my_schedule<<<\n");
/* schedule */
next = my_current_task->next;
prev = my_current_task;
if(next->state == 0)/* -1 unrunnable, 0 runnable, >0 stopped */
{
my_current_task = next; //当前进程为next,逻辑上切换,实际寄存器内尚未更换
printk(KERN_NOTICE ">>>switch %d to %d<<<\n",prev->pid,next->pid);
/* switch to next process */
asm volatile(
"pushl %%ebp\n\t" /* save ebp */ //将pre的ebp存在prev的栈顶
"movl %%esp,%0\n\t" /* save esp */ //将prev当前的esp存入prev->thread.sp变量中存起来
"movl %2,%%esp\n\t" /* restore esp */ //从这里开始,寄存器esp现在指向的sp切换到next的sp去了,堆栈顶指针实现了更换
"movl $1f,%1\n\t" /* save eip */ //将标记1处的地址存入prev->thread.ip,这样调度回到prev进程时,会从标记处执行命令,即将本段代码开头push进prev堆栈的ebp值取出至寄存器的ebp中,实现实际栈底指针的切换
"pushl %3\n\t" //将next的ip存入next的堆栈顶部,下行会用到
"ret\n\t" /* restore eip */ //ret会弹出堆栈顶部的内容至ip,结合上条指令,实现了ip寄存器内的内容换为next->thread.ip,这样接下来执行的指令会是next进程希望的指令,然后跳出此处的花括号,回到命令执行
"1:\t" /* next process start here */ //此处为标志位,除第一次切换至某进程之外,任何时候切换至该进程都会从此处开始
"popl %%ebp\n\t" //进程再次执行时,会因为这条命令,将之前存的ebp弹出至ebp寄存器,实现ebp寄存器值的切换
: "=m" (prev->thread.sp),"=m" (prev->thread.ip)
: "m" (next->thread.sp),"m" (next->thread.ip)
);
}
return;
}