期中总结

一、计算机是如何工作的

冯·诺依曼结构:

  从硬件的角度:CPU通过总线和内存连接,CPU从IP所指的代码段取指令执行。

  从程序员的角度:内存负责保存指令,CPU负责执行指令。

CPU怎么识别,识别什么样的指令:

  API 程序员与计算机的接口

  ABI 程序与CPU的接口

  约定指令是用什么寄存器

x86计算机中,eip是自加一的指向一个指令,自加一是加一条指令,而非字节等,eip还可以被其他指令修改,如跳转调用指令。

CPU在实际取指令时根据CS:eip来准确定位一个指令。

linux内核使用的是AT&T汇编格式。

二、操作系统是如何工作的

计算机三大法宝:

  存储程序计算机工作模型是计算机系统最基础的逻辑结构

  函数调用堆栈是高级语言得以运行的基础

  中断时多道程序操作系统的基点

堆栈:c语言程序运行时必须的一个记录调用路径和参数的空间

  函数调用框架

  传递参数

  保存返回地址

  提供局部变量空间

堆栈相关寄存器

  esp:堆栈指针

  ebp:基址地址

  堆栈操作:push:栈顶地址减少4个字节,pop:栈顶地址增加4个字节

其他关键寄存器:

  -cs·eip:总是指向下一条指令地址

  顺序执行:总是指向地址连续的下一条指令

  跳转/分支:call ret

gcc-g生成可执行文件

  objdump -S得到反汇编代码

操作系统具有“两把剑”即中断上下文和进程上下文的切换;这样的特性使得操作系统可以具有一定的标准来选择执行和中断程序,调配资源。

三、构造一个简单的Linux系统MenuOS

inux内核源代码的分析:

·arch/目录保存支持多种CPU类型的源代码,重点是x86
·init目录:含有main.c,内核启动相关的代码基本都在init目录下
·ipc目录:进程间的通信
·kernel目录:有Linux内核的核心代码。

Linux内核的启动过程

启动Linux内核的三个参数:kernel initrd root所在分区、目录

最重要的一行代码:

qemu -kernel (文件名) -initrd (rootfs.img)

qemu相当于打开一个虚拟机

kernel启动一个内核,位置由其后的文件名指定。如果在当前目录下,可以直接输入文件名,如果不是,则需要输入该内核的全路径。

initrd指令是挂了一个ramdisk虚拟硬盘,是内核的重要补充,rootfs.img就是这个虚拟硬盘,内有分区,然后启动的其实是其中的init文件,这个文件是由之前的menuOS编译而成,gcc -o命名为init。

所以就是要启动一个内核,挂一个硬盘,然后再运行一个init即1号进程。
也就是说,init中main.c中有一个start_kernel函数
在start_kernel函数的尾部调用了一个rest_init
有一个全局变量init_task,即手工创建的PCB,0号进程,即最终的idle进程。0号进程一直存在,系统没有进程需要执行时调度到0号进程。

0号进程创建了1号进程和其他
rest_init()中有kernel_thread(kernel_init,NULL,CLONE_FS)
kernel_init中有run_init_process,
run_init_process创建了一号进程,默认路径下的程序。

简单分析start_kernel

1、全局变量init_tast:即手工创建的pcb,0号进程即最终的idle进程。

2、trap_init:硬件中断,初始化一些中断向量,系统调用。

   set_intr_gate:设置中断门。

     set_system_trap_gate:系统陷阱门SYSCALL VECTOR。

3、mm_init:内存管理模块初始化。

4、sched_init:进程调度初始化函数,函数内做了很关键的一步初始化——对0号进程,即idle进程进行初始化。

5、rest_init:其他初始化函数,函数内将创建1号进程,即init进程。

6、init_process:是linux系统中的1号进程,是第一个用户态进程,默认根目录下的init程序。

7、kthreadd:内核线程,用来管理系统资源

四、系统调用

用户态、内核态和中断处理过程

系统调用是用户通过库函数方式:库函数帮我们把系统调用封装起来。

内核态:高级别执行,可以使用特权指令,访问任意的物理地址。

用户态:低级别执行,代码范围受到限制。

CS寄存器的最低两位表明了当前代码的特权级。

在linux中,0xc0000000以上的地址空间只能在内核态下访问,0x00000000-0xbfffffff的地址空间两种状态下都可以使用。(逻辑地址)

中断处理是从用户态进入内核态主要的方式

从用户态进入内核态:必须保存用户态的寄存器上下文

中断/int指令在堆栈上保存寄存器的值:用户态/内核态栈顶地址(ss:esp)、状态字(eflags)、cs:eip值(内核态时指向中断服务程序入口)

系统调用是一种特殊的中断

中断发生后第一件事就是保存现场

中断处理结束前最后一件事是恢复现场

系统调用概述

1、系统调用的意义

操作系统为用户态进程与硬件设备进行交互提供了一组接口-系统调用

用户不管硬件编程

提高系统安全性

用户程序可移植

2、API和系统调用

API:应用编程接口,是一个函数定义

系统调用:通过软中断向内核发出明确请求

Libc库定义的一些API引用了封装例程(唯一目的就是发布系统调用)

一般每个系统调用对应一个封装例程

库用封装例程定义出给用户的API

不是每个API都对应一个特定的系统调用

API可直接提供用户态服务,如数学函数

一个API可调用几个系统调用

不同API可调用同一系统调用

3、返回值:

封装例程返回一个整数,含义依赖与相应系统调用

-1表示内核不能满足进程的要求

Libc定义的errno变量包含特定出错码

系统调用三层皮:

API(xyz)

中断向量(system_call)

中断服务程序(sys_xyz)

用户态进程调用系统调用时,CPU切换到内核态执行内核函数(Linux中通过执行int $128来执行系统调用,产生向量为128的编程异常)

传参:

进程指明需要哪个系统调用,传递系统调用号,使用eax传递

系统调用号将xyz与sys_xyz关联起来

system_call是linux中所有系统调用的入口点,每个系统调用至少有一个参数,即系统调用号。

寄存器传递参数的限制:

每个参数长度不能超过寄存器长度即32位

在系统调用号eax之外,个数不能超过6个

超过6的话:某个寄存器中存储指针,指针会指向一个内存空间,存储参数

系统调用传递第一个参数使用ebx。

五、Linux内核创建一个新进程的过程

进程的描述

操作系统的三大管理功能:进程管理、内存管理、文件系统

为了管理进程,内核必须对每个进程进行清晰的描述,进程描述符提供了内核所需了解的进程信息。

进程控制块PCB task_struct:进程状态、进程打开的文件、进程优先级信息

创建新进程

复制一个PCB——task_struct

给新进程分配一个新的内核堆栈

修改复制过来的进程数据,如pid、进程链表

新进程是从哪里开始执行的

fork出来的子进程从ret_from_fork开始执行,然后跳转到syscall_exit,从系统调用中返回。

六、可执行程序的装载

编译链接的过程和ELF可执行文件格式

vi hello.c
gcc -E -o hello.cpp hello.c -m32 //预处理.c文件,预处理包括把include的文件包含进来以及宏替换等工作

vi hello.cpp
gcc -x cpp-output -S -o hello.s hello.cpp -m32 //编译

vi hello.s
gcc -x assembler -c hello.s -o hello.o -m32 //汇编

vi hello.o
gcc -o hello hello.o -m32 //链接

vi hello
gcc -o hello.static hello.o -m32 -static

ELF文件中有三种文件

可重定位文件:保存着代码和适当的数据,用来和其他的object文件一起来创建一个可执行文件或者是一个共享文件。

可执行文件:保存着一个用来执行的程序;该文件指出了exec(BA_OS)如何来创建程序进程映象。

共享文件:保存着代码和合适的数据,用来被下面的两个链接器链接。

  第一个是连接编辑器[请参看ld(SD_CMD)],可以和其他的可重定位和共享object文件来创建其他的object。

  第二个是动态链接器,联合一个可执行文件和其他的共享object文件来创建一个进程映象。

object文件参与程序的链接(创建)和执行。

ELF文件头

用readelf查看

在文件开始保存了:路线图:描述该文件组织情况,程序头表:告诉系统如何创建一个进程的内存映像,section头表:描述文件的section信息。(每个section在这个表中有一个入口,给出该section信息)

静态链接的ELF可执行文件和进程的地址空间

程序从0x804800开始,正式开始是在头部结束之后。

可执行文件加载到内存中开始执行的第一行代码。

一般静态链接将会把所有代码放在同一个代码段。

动态连接的进程会有多个代码段。

可执行程序、共享库和动态链接

可执行程序的执行环境:

一般执行一个程序的Shell环境,实验中直接使用execve系统调用

Shell本身不限制命令行参数的个数,命令行参数的个数受限于命令自身,如:

int main(int argc, char *argv[])

int main(int argc, char argv[], char envp[])//envp是shell的执行环境

Shell会调用execve将命令行参数和环境参数传递给可执行程序的main函数

int execve(const char * filename,char * const argv[ ],char * const envp[ ]);

 Linux内核如何装载和启动一个可执行程序

创建新进程

新进程调用execve()系统调用执行指定的ELF文件

调用内核的入口函数sys_execve(),sys_execve()服务例程修改当前进程的执行上下文;当ELF被load_elf_binary()装载完成后,函数返回至do_execve()在返回至sys_execve()。ELF可执行文件的入口点取决于程序的链接方式:

静态链接:elf_entry就是指向可执行文件里边规定的那个头部,即main函数处。

动态链接:可执行文件是需要依赖其它动态链接库,elf_entry就是指向动态链接器的起点。
多进程、多用户、虚拟存储的操作系统出现以后,可执行文件的装载过程变得非常复杂。引入了进程的虚拟地址空间;然后根据操作系统如何为程序的代码、数据、堆、栈在进程地址空间中分配,它们是如何分布的;最后以页映射的方式将程序映射进程虚拟地址空间。

七、进程调度时机跟踪分析进程调度与进程切换的过程

进程切换的关键代码switch_to分析

进程调度与进程调度的时机分析

中断处理过程(包括时钟中断、I/O中断、系统调用和异常)中,直接调用schedule(),或者返回用户态时根据need_resched标记调用schedule();

内核线程(只有内核态没有用户态的特殊进程)可以直接调用schedule()进行进程切换,也可以在中断处理过程中进行调度,也就是说内核线程作为一类的特殊的进程可以主动调度,也可以被动调度;

用户态进程无法实现主动调度,只能被动调度,仅能通过陷入内核态后的某个时机点进行调度,即在中断处理过程中进行调度。

进程上下文切换相关代码分析

为了控制进程的执行,内核必须有能力挂起正在CPU上执行的进程,并恢复以前挂起的某个进程的执行,这叫做进程切换、任务切换、上下文切换;

挂起正在CPU上执行的进程,与中断时保存现场是不同的,中断前后是在同一个进程上下文中,只是由用户态转向内核态执行;

进程上下文包含了进程执行需要的所有信息

  用户地址空间:包括程序代码,数据,用户堆栈等

  控制信息:进程描述符,内核堆栈等

  硬件上下文(注意中断也要保存硬件上下文只是保存的方法不同)

schedule()函数选择一个新的进程来运行,并调用context_switch进行上下文的切换,这个宏调用switch_to来进行关键上下文切换

next = pick_ next_task(rq, prev);//进程调度算法都封装这个函数内部

  context_switch(rq, prev, next);//进程上下文切换

switch_to利用了prev和next两个参数:prev指向当前进程,next指向被调度的进程

Linux系统的一般执行过程分析

中断上下文的切换(中断和中断返回时CPU进行上下文切换)

进程上下文的切换(进程调度过程中,从一个进程的内核堆栈切换到另一个进程的内核堆栈)

Linux系统执行过程中的几个特殊情况

通过中断处理过程中的调度时机,用户态进程与内核线程之间互相切换和内核线程之间互相切换,与最一般的情况非常类似,只是内核线程运行过程中发生中断没有进程用户态和内核态的转换;

内核线程主动调用schedule(),只有进程上下文的切换,没有发生中断上下文的切换,与最一般的情况略简略;//用户态进程不能主动调用

fork:创建子进程的系统调用在子进程中的执行起点(next_ ip = ret_ from_ fork)返回用户态,进程返回不是从标号1开始执行,直接跳转到ret_ from_fork执行然后返回到用户态;

加载一个新的可执行程序后返回到用户态的情况,如execve,只是中断上下文在execve系统调用内部被修改了;

 

posted @ 2016-04-24 16:07  20125221银雪纯  Views(174)  Comments(0Edit  收藏  举报