操作系统学习

基础概念

操作系统是什么

是一种软件，提供给用户和其他上层软件方便的接口和环境！！！

系统资源的管理者

提供处理机(CPU)、存储器、文件、设备管理

打开QQ -- 相关数据放入内存 -- 进程被CPU处理 -- 视频通话(摄像头设备)

向上层提供方便易用的服务

GUI(图形用户接口) 比如window下拖拽到回收站删除文件
联机/脱机命令接口比如cmd, 联机就是cd ls等，脱机就是.bat 也叫批处理
程序接口比如printf底层就是调用了操作系统的显示接口

最接近硬件的一层软件

硬件只能听懂010101，操作系统把这些硬件功能封装成简单易用的服务
没有任何软件支持就叫裸机，裸机安装操作系统就更方便使用了！

操作系统特征

并发共享(二者相辅相成) 虚拟 (有并发才有意义虚拟) 异步(没有并发就不会异步)

并发

指两个事件在同一个tick内发生，但实际上是交替(交替很快)发生的如果实际上也是同时发生，那叫并行！！！！
单核CPU只能并发，多核CPU可以并行！！

共享

资源共享：指的是多个程序并发时同时使用某资源
分为互斥共享（不可同时用摄像头）、同时共享(同时访问硬盘文件实际上一般也是交替)

虚拟(空分复用时分复用)

把物理实体变为若干个逻辑上的对应物，比如一个程序需要放入内存并分配CPU才可执行，实际上电脑单核，但是用户感受可以开多个应用，这就叫虚拟！！

异步

系统资源是有限的，这个资源被占用了，另一个进程就会被阻塞！！
只有并发才会可能导致异步！！！

操作系统的发展

程序员用纸带机输入输出(有孔为1 无孔为0)
单道批处理系统
多道批处理系统
分时操作系统
实时操作系统

程序

内核程序(Kernel) 应用程序(app)

理论上只需内核就可以使用一个操作系统
CPU可以分辨出哪些是特权指令哪些是非特权指令
CPU两状态(通过一个状态寄存器) 内核态(可执行特权指令)和用户态(不可以)

也就是说，内核态到用户态，需要写入这个寄存器

刚开机CPU是内核态若用户态时收到特权指令会中断并拒绝执行该程序后续命令，然后进入内核态执行中断程序，执行完后恢复用户态
并不是库函数都涉及系统调用，文件操作肯定涉及系统调用取绝对值不涉及

中断

没有中断，就不会从用户态切回内核态，就不可能实现并发！！！

内中断：与当前执行的指令有关(非法指令)，中断信号来自CPU内部
例如：用户态特权指令、除数为0、应用程序请求内核服务(陷入/trap/访管指令)
外中断：与当前执行的指令无关，中断信号来自CPU外部
例如：时钟中断、I/O中断

操作系统体系结构

内核咋设计？

原语哪怕遇到中断也会执行完再中断！！！
微内核只包括时钟管理、中断处理、原语。大内核还包括进程、存储器、设备管理。微内核比如windows 大内核比如linux unix
外核负责分配未经抽象的系统资源(一整块连续的磁盘空间、物理内存)

分层结构模块化

模块化可以并行开发，只需要提前定义好函数名、参数、返回值
模块化一般可以动态扩充，因为彼此间独立
模块化调试困难
分层结构调试简单但是更消耗资源，而且有互相依赖的不好分层

引导

开机后如何让操作系统运行起来

在磁盘上安装一个操作系统，如下图

C盘一般是活动分区（也就是安装了操作系统的分区）分为引导记录PBR(负责找到启动管理器) 根目录其他
ROM存储BIOS(basci input output system) 主要包含ROM引导程序，作用是指示CPU把MBR读入RAM，MBR的磁盘引导程序又把PBR读入RAM，执行启动管理器

总结：CPU从特定地址取指令执行ROM引导(先硬件自检) --> 引导MBR写入RAM(作用是扫描分区表) --> 从活动分区读PBR到RAM --> 找到启动管理器

位于 C:/Windows/BOOT

虚拟机

将一台物理机器虚拟化为多台虚拟机器，实现一个电脑上跑好几个操作系统

进程线程协程

进程

进程之间是树形关系，并不是并列关系，也就是说有几个根进程，产生诸多子进程

进程概念

ctrl+shift+ESC 打开任务管理器每一行都是一个进程

程序是一个静态可执行文件，比如一个qq程序打开三次，算三个进程(三个pid)，进程是动态的
创建一个进程就会产生一个PCB(进程控制块一个struct) 包含pid、uid、cpu使用时间使用率磁盘写入读取情况、占用内存、使用的io设备、寄存器的值等信息

比如三个qq进程，他们的PCB 数据段各不相同，但是程序段相同

进程状态

进程的状态：运行就绪阻塞(三基本态) 创建终止

正在创建(创建态) -> 创建完等待运行(就绪) -> 被CPU选中并执行(运行) -> 需要用的设备被占用(阻塞) -> 设备空闲(就绪) -> 运行态 -> 运行结束或遇到错误(终止)
组织方式(如何实现不通进程切换)可能是通过PCB指针切换，有执行指针、就绪队列指针、阻塞队列指针(可能有多个阻塞队列)，也可能是通过多个索引表，指针指向索引表实现

进程控制

用原语(一气呵成不会被中断)实现进程控制

为什么要原语，比如一个进程从阻塞变为就绪，至少两步:PCB的state=1 PCB从阻塞队列放入就绪队列。如果不是一气呵成那么会出现阻塞队列里的PCB state=1，关键数据信息不统一！！！
原语是如何实现的呢？关中断--指令1--指令2--开中断，一旦关中断就表示不会被中断打断！
进程什么情况下创建呢？创建原语、特定事件(登录后起另一个进程系统服务起一个进程进程请求创建子进程外存转到内存需要新建进程)
进程什么情况下终止呢？撤销原语特定事件(执行完终止、异常终止、外部干扰)
还有阻塞原语、唤醒原语(必须成对使用，由什么阻塞由什么唤醒) 切换原语

进程通信(IPC)

不同进程的内存地址空间互相独立！！！为了安全考虑！！！

共享存储(保证不同进程的访问互斥！！否则会出现写入冲突等)

申请共享存储区，不同进程都可以访问这块内存！
例如linux下

int shm_open(...); //发起通信的进程A  申请共享存储区
void *mmap(...);   //所有参与通信的进程，把共享存储区映射到自己的内存空间！！

申请共享数据结构
相当于一种特殊的全局变量，比如共享区只能放长度10的一个数组，限制多且速度慢！！

消息传递
进程之间的数据交换以格式化消息为单位，通过发送和接收原语实现！！！

格式化的消息：消息头消息体
消息传递分为直接通信(通过pid) 间接通信(通过信箱)
直接通信也是通过操作系统内核区消息队列传递的，一方发送到内核，一方从内核接收！！
间接通信是通过发送原语发送到信箱，然后另一个进程从信箱读

管道通信

只可能是单向的，实际上就是在内存中开辟一个大小固定的缓冲区，是一个特殊的共享文件
和共享的区别是，共享没有限制，管道只能单向，一个写一个读，而且先入先出(只要管道不空就可以读 )
管道只能是半双工，想全双工只能再开一个管道，由操作系统实现互斥访问
管道满了之后，写进程被阻塞，直至读走了一个，管道空了之后，读进程被阻塞，直至写了一个
linux多写多读，但是要求读进程轮流，轮流呢，也就是多写一读。。。。。

线程

概念

线程是程序执行流(CPU调度)的最小单位！！！进程是CPU分配系统资源的最小单位！！！

优势：切换进程的运行环境开销很大，但是一个进程不同线程开销不大
线程也有TID TCP 有就绪阻塞运行三态几乎不拥有系统资源(在进程那) 统一进程的线程间通信甚至无需系统干预

实现方式

用户级线程 --早期，用户自己写线程库实现。。。。(包括创建销毁调度)

优点是无需切换CPU到内核态开销小效率高缺点是并发度低(多核浪费)，容易被阻塞！！！！

内核级线程

线程切换需要切换到核心态优点是并发能力强不怕某线程阻塞缺点是开销大成本高

线程库和内核级线程结合: 一个用户级线程对应一个内核级线程还有多对一(实际上就是用户级。。。) 多对多(用户级线程数大于内核级线程！！)

调度

按照某种规则决定先处理哪个任务！！

基本概念

高级调度(作业调度):作业指一个具体的任务，好几个作业，看下先写哪个作业，也可以理解为先启动哪个程序,从外存调度到内存，从无到创建！！
低级调度(进程调度/处理机调度):从就绪队列里选一个进程，把处理机分配给他

进程调度频率很高，一般几十毫秒一次，是最基本的调度

中级调度(内存调度):内存不足时把某些进程数据调出到外存，进入挂起状态(挂起队列)，调度时回到内存，取消挂起变成就绪！！频率比高级调度高

调度方式

低级调度分为主动放弃(运行结束异常主动请求阻塞比如请求I/O)和被动放弃(时间片用完被插队)

中断处理过程不能切换，内核临界区(如访问就绪队列但是访问打印机可切换)、原语不可以切换

调度方式分为非抢占(即便有紧急任务也先执行完再给你，开销小但是无法及时响应紧急任务)和抢占式(适合分时操作系统实时操作系统)
调度与切换的关系，调度指的是从就绪队列里挑一个进程运行，这个进程如果是刚刚暂停的进程就不用切换，如果是另一个进程就需要切换！！！！！

进程切换包括保存原来进程的各种数据、恢复新进程的各种数据

进程切换不要太循环，否则频繁保存恢复会浪费大量系统资源！！！

调度程序

调度程序就是执行调度过程的程序，需要制定调度的算法和时间(一个时间片)
什么时候会触发？
创建新进程、退出进程、进程阻塞、I/O中断，对于非抢占，只有阻塞和退出会触发，对于抢占时钟中断(每个时钟周期检查一次就绪队列，如果有VIP就拿来执行)会触发
调度程序永远的备胎。。闲逛进程，也就是RTOS的空闲任务，优先级最低

调度算法

评价指标：CPU利用率系统吞吐量(单位时间完成多少作业) 周转时间(作业提交到完成) 等待时间(对于客户和进程来说等待时间不同！！！) 响应时间(提出请求到首次被响应)

先来先服务

该算法用于作业调度，考虑哪个作业先到达后被队列，用于进程调度，考虑哪个进程先到达就绪队列

优点就是公平，实现不复杂，缺点是有利于长作业，如果是排在长作业后面的一个短作业，他就很愤怒
非抢占式不会导致饥饿

短作业(进程)优先

该算法考虑追求最少的平均周转时间、平均等待时间，选择当前已到达且运行时间最短的作业！！比如说我只用一秒就处理完了，我前面这个比要五秒，我就先干我的让他等一秒！！！

会饥饿默认非抢占式(也有抢占式，叫最短剩余时间优先！！) 被抢占后不用从头开始剩多少干多少
优点是整体数据更好看，缺点是运行时间其实是用户提供的，如果被骗了，会导致诚实的长作业饿死

高响应比优先

该算法优先考虑响应比

不会饥饿一般是非抢占式！！！！

以上的三种算法，根本没考虑用户的响应时间和任务紧急程度，只用于早期的批处理系统！！！！

时间片轮转(时间片太大就退化为先来先服务了时间片太小就消耗太多时间、资源用于切换了)

公平、轮流的为各个进程服务，一个时间片没弄完就滚去队尾等下一次服务吧！！

只用于进程调度(因为只有作业从外存放到内存才涉及时间片概念)
抢占式，不会饥饿

优先级调度

选择优先级高的进程，优先级可以是静态的，也可以是动态调整的
(系统进程>用户进程前台进程>后台进程 IO繁忙进程>CPU繁忙进程)

作业调度、进程调度甚至I/O调度都会用到
有抢占也有非抢占会饥饿

多级反馈队列调度

基于多个队列，每个进程刚来的时候放在最高优先级的队列，一个时间片后放到次高优先级队尾，直至执行完或跑到了最低优先级队列！！！

优先级越高的队列，时间片越小！！！只有当前优先级队列空了，才会继续执行下一级优先级队列!!

一种情况: 当前还没执行完, 更高优先级队列又来一个, 那就把他放在当前队列队尾无需降优先级！

相对公平每个进程都可以较快被响应避免用户谎报运行时间，
抢占式算法！可能导致饥饿一般情况下就说他是无敌平衡的6666

不同类型的进行导入不同优先级的队列，比如系统进程交互式进程(打字游戏) 批处理进程(特效渲染)

调度方式不仅可以高优先级空了再低优先级，也可以时间片划分，比如依次分配0.5 0.4 0.1的时间

不同队列也可以采用不同调度策略

进程同步与互斥

异步指的是各个并发执行的进程以各自独立、不可预测的速度推进

比如进程通信的管道通信中，写数据和读数据异步，但是要保证先写再读，就需要同步！！

资源共享分为互斥共享和同时共享原则:空闲让进忙则等待有限等待让权等待(临界区空闲直接进，不空闲就等，设置最长等待时间，到期了还没进就让出处理机)

软件实现互斥

单标志法: 定义一个int，指定哪个进程可以进入临界区，也就是说某个进程进入临界区的权限只能通过另一个进程给予

问题：违反空闲让进，前一个进程让出了临界区，下一个进程迟迟不访问的情况(⑦turn=0只能表示P1用完临界区了，P0如果不想运行，会卡在②) 运行时序P0-P1-转给P0 但是P0不用了-P1想用不能用

双标志先检查法：定义一个bool数组，用于标记想进入临界区的意愿，flag[i]=true表示想且能立即进入临界区

问题：违反了忙则等待，二者并发运行，①之后没来得及执行② 就切换并执行了⑤ 会导致二者抢占，

二者的区别在于，单标志法是检测临界区是否被使用，不被使用就进入(哪怕我现在不需要进入临界区)，双标志法是先看对方是否想用，直至对方不想用了，再表示自己想用，使用完后再表示自己不用了
也就是说不想用时单标志法会卡在临界区执行语句，双标志法会卡在给flag[]赋值的语句

双标志后检查法

问题: 违背了空闲让进和有限等待并发时会卡在2 6，产生饥饿！！！

Peterson（皮特森算法）

并发时，看谁后谦让！！！后谦让的算数，谁后说的客气话，谁失去执行权!!!

未遵循让权等待！！！其实就是结合单标志和双标志

硬件实现互斥

中断屏蔽方法(硬件)

也就是通过关中断--临界区--开中断实现！！优点是简单高效缺点是不适用多处理机，不适用用户进程(用户进程操作内核态特权指令开关中断不安全！！)

TS/TSL指令(硬件)

只是逻辑展示，实际上是通过硬件寄存器实现的，稳定可靠，可用于多处理机环境，但仍不满足让权等待

swap指令(Exange XCHG)(硬件)

最开始的lock已经有值了，但我们不知道他是啥，进入循环，lock=true，old=刚刚的lock,如果此时的old=true，说明已经上过锁了，那么两个true继续交换直至lock变成false(在另一个占用临界区的进程里变成false) 这时再交换一下old就会变成false，执行临界区代码

互斥锁

最简单的解决临界区的工具就是互斥锁，acquire()获得锁 release()释放锁锁里有个布尔变量

以上就是自旋锁，比如TSL SWAP 单标志法
主要缺点是忙等待，不适用单核处理机，因为忙等的时候不可能获得锁

信号量机制

一对原语，wait(S) signal(S) S表示信号量，简称为P V操作P(S) V(S)

分为整形信号量和记录型信号量

对整形信号量的操作，只有三种初始化 P V
类似双标志先检查。但他是原语,检查上锁一气呵成,避免异步问题。问题:不满足让权等待
记录型信号量 wait原语和整形的不同解决了让权等待！

这里为什么是≤，因为只有其他资源wait完了才会阻塞，才需要wakeup!!!如果大于零就不需要wakeup了!! 也就是说阻塞和唤醒不是必须的操作！！！

P原语用于分配资源，导致S.value--，直至变成负的说明资源已分配光了，因此自我阻塞。V原语用于释放资源，如果释放后S.value依然≤0，说明还有进程在等待该资源，因此唤醒阻塞队列的其中一个

信号量实现互斥同步前驱

互斥：

同步，初始化为0，先P1再P2 还是先P2再P1 都可以保证代码1 代码2 代码4 的顺序

总结：在前操作(12)后执行V,在后操作(4)之前执行P

前驱

生产者-消费者问题

类似于读写，满了不能写空了不能读 “不能”的时候必须等待，另一侧唤醒我！

读写缓冲区，缓冲区是互斥资源，否则会导致第二个资源写的覆盖我写的

死锁

实现互斥的P操作一定要在实现同步的P操作之后！！！不然会死锁！！！

V操作顺序无所谓的
生产产品和使用产品可以放到临界区，但是会导致临界区执行时间变长，不推荐

多生产者，多消费者问题

也就是多读多写

场景盘子就一个空父亲放苹果给女儿吃母亲放橘子给儿子吃

前操作之后V 后操作之前P
对盘子来说前操作是取走水果后操作是放入水果(初始盘子为1)
对水果来说前操作是放入水果后操作是取走水果（初始水果0）

最终发现不设置mutex也可以....根本原因是盘子容量为1！！！

吸烟者问题

也就是多读一写

同样不用设置互斥

个人理解 P相当于加锁、等待xxx V相当于解锁、释放xxx

读者写者问题

要求：可以多个读者同时读但某时刻只能有一个写，而且有人在写，不可以任何访问(读写)

用于防止读的时候发生改变、写的时候发生覆盖！

问题在于，P(rw)和count++中间如果发生了进程切换，会出现加锁两次！第一个加的被阻塞
解决方法是加mutex

潜在问题：读进程优先，如果一直有人在读，写进程就会饿死
解决：添加一个写优先的信号量

哲学家问题

与其他问题不同的是，需要两个资源才可以运行

如何预防死锁？

最多允许四个哲学家同时进餐，可以保证至少有一个哲学家可以拿起俩筷子！
奇数先拿左，偶数先拿右

出现的问题：0号拿左拿右 1号无法拿左阻塞，同时他持有mutex，接着切2 2因为没有mutex也被阻塞，尽管左右筷子都空但是还是不让你拿

出现的问题：0号拿左拿右 4号拿左，右边无法拿如果此时上了3 3就是大怨种，4占着茅坑不拉屎！！！(可以规定只有两边都可以拿，再拿)
虽然是问题但已经是最好的办法了！！
说白了就是让拿筷子的操作互斥的进行，就算拿筷子拿到一半被阻塞，也没人继续尝试拿筷子

管程

每次只允许一个变量访问函数，管程相当于一个class

说白了就是编译器帮你解决怎么互斥，先哪个P再哪个V，我只需要保证

-.- 没听懂，，，，后面再补吧

死锁

上面哲学家问题说过了！！其实就是各个进程都在等待其他资源不想自己先放

死锁指的是各进程都无法推进，饥饿指的是某个进程不能推进，死循环一般是bug
饥饿可能处于阻塞(得不到外设)可能处于就绪(得不到CPU) 死锁一定是阻塞

死锁的必要条件互斥不剥夺请求和保持循环等待

只有争抢互斥的资源才会导致死锁，可以同时让多个进程使用的资源不会死锁比如内存
资源只能主动释放，不能被抢走
请求另一个资源，又不释放当前已有资源
循环等待就比如哲学家问题(必要不充分比如这个资源数量大于1)

处理策略

预防，避免四个必要条件
避免，银行家算法
检测和接触，由操作系统解决

预防死锁

也就是破坏死锁的四个必要条件的某一个/某几个

互斥条件 SPOOLing技术，把互斥的资源改为共享.....NB，对于两个进程来说都在同时访问，只是访问后还需要等罢了，使用比较窄。。
不剥夺条件请求新资源被拒绝(不可被剥夺) 立即释放当前拥有的所有资源//或者改优先级缺点是实现复杂、反复申请释放增加系统开销，而且释放容易导致前面的工作失效
请求和保持条件运行前一次性请求完他需要的所有资源！！缺点是资源利用率低导致饥饿
循环等待条件规定每个进程必须按编号递增请求，同编号的资源一次申请完只有已占用小资源才可以申请大资源，所以任何一个时刻总有一个进程拥有最大号的资源，它后面的申请畅通无阻。缺点是不方便新增资源(需要重新编号) 编号顺序不好确定

避免死锁

已知安全状态一定不会死锁，不安全状态可能死锁，所以每次分配资源前判断是否不安全即可

也就是说，只有资源数全部满足才可以开始执行，开始执行才可以执行完，执行完才可以归还
如果分配完了找不到安全序列咋办呢！？？？阻塞等待呗

检测和解除

用一种数据结构保存资源的请求和分配情况，根据这些信息判断是否进入死锁

此时P2的资源被P1占用了，比如P1运行完，会归还所有资源也就是相连的边清空

如果最后可以全部消除，说明是一个安全序列，不会死锁

如果不能消除所有的边一定是正在死锁

解除方式：资源剥夺(挂到外存上记得拿回来) 撤销进程法(简单粗暴直接给你终止了) 进程回退法(不太容易实现需要记录历史信息)

如何决定对谁动手？

优先级低的，刚开始运行的，还要很久才能结束的，已经用了很多资源的，批处理的进程

内存

基础知识

内存是为了缓和CPU和硬盘(外存)的速度矛盾，因为CPU处理得很快，硬盘很慢！！

一个4G的设备，他就一共有4 * 2^30 = 2^32个存储单元，需要32位二进制数表示内存地址

“按字节编址”就是一个存储单元一字节，八位；“按字编址”需要看计算机字长几位就是几位
绝对地址问题，比如程序的指令是向地址20的地方写入一个数，实际上程序最后编译成“装入模块”(也就是exe) 起始地址并不是0，就会导致这个数写入位置错误，他应该写入起始地址+20！！

策略1：绝对装入，预先知道起始地址为100，直接让他放在120的地址(只适用没操作系统裸机)
策略2：可重定位装入(静态重定位)装入时+100(必须一次分配全部内存空间运行后不可移动)
策略3：动态运行时装入(动态重定位)运行时+100(可动态申请内存可不连续分配优点多多只是需要一个重定位寄存器支持)

从写程序到程序运行
三种链接方式，和上面三种策略一样。。。

静态链接，把所有模块和所需库函数链接，之后不再拆开
装入时动态链接，如果有的模块没用上就不装入，其他用到的就边装入边连接
运行时动态链接，程序运行时发现需要哪个模块，才链接他

内存管理

实现内存的分配回收、逻辑上扩充物理地址、地址重定位(装入+100)、内存保护(互不干扰)

内存保护的方法：上下限寄存器 / 重定位寄存器(基址)+界地址寄存器(限长)

覆盖与交换

内存空间的扩充：覆盖交换虚拟存储(这个是重点)

覆盖用于解决物理内存 < 程序大小，思想是把程序分段，常用的常驻内存,不常用的需要时调入内存中分为一个固定区(常驻调入后结束再调出)、若干个覆盖区(需要调入不需要调出)
交换：内存紧张，把某些进程调到外存(挂起！) 中级调度就是用于决定把哪个挂起的放入内存一般把磁盘分为文件区和对换区，文件区离散分配(磁盘利用率高)，对换区占小部分，存放被挂起的进程连续分配，也就是说对换区I/O速度更快点