第一章:计算机系统漫游
编译过程:
- 预处理阶段:预处理器根据字符#开头的命令,修改原始的c程序;
- 编译阶段:编译器将ascii文本文件翻译成汇编语言程序;
- 汇编阶段:汇编器将汇编语言程序翻译成机器指令,分为32位和64位系统机器语言指令,将这些指令打包成可重定位目标程序;
- 连接阶段:将一些所需的单独编译好的目标文件合并到可重定位目标程序中,得到一个可执行目标文件。
总线:贯穿整个系统的一组电子管道,携带信息字节并负责在各个部件间传递,通常总线被设计成传送特定长的字节块,就是字,字中的字节数(字长)又系统决定,32位系统字长为4个字节;
I/O设备:系统与外部世界联系通道;
主存:内存,一个临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。处理器的核心是一个字长的存储设备(或寄存器)。称为程序计数器,任何时候pc都指向主存中的某条机器语言指令;
高速缓存:利用了高速缓存的局部性原理,即程序具有访问局部区域里的数据和代码的趋势。通过让高速缓存里存放可能将常访问的数据的方法,大部分的存储器操作都能在快速的高速缓存中完成;存储器层次结构的主要思想是一层上的存储器作为第一层存储器的高速缓存;
进程:操作系统对正在运行的程序的一种抽象;
并发:一个进程的指令和另一个进程的指令是交错进行的,通过上下文切换的机制实现交错执行;
上下文:操作系统保持跟踪进程运行所需的所有状态信息,就是上下文,包含许多信息,例如pc和寄存器文件的当前值,以及主存的内容;
线程:一个进程可以由多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的代码和全局数据;
虚拟存储器:为进程提供一种每个进程都在独占地使用主存的假象。每个进程看到的是一直的存储器,称为虚拟地址空间。
文件:就是字节序列,每个I/O设备都可以视为文件;
并行与并发:并发值同时具有多个活动的系统;并行指的是用并发使一个系统运行的更快。并行可以在计算机系统的多个抽象层次上运行。
- 线程级并发:同时执行多个程序;允许多个用户与系统交互;超线程:一项允许CPU执行多个控制流的技术;
- 指令级并行:现代处理器可以同时执行多条指令的属性称为指令级并行。
- 允许一条指令产生多个可以并行的操作,称为单指令,多数据
抽象:指令集结构提供了对实际处理器硬件的抽象;文件是对I/O的抽象;虚拟存储器是对程序存储器的抽象;进程是对一个正在进行的程序的抽象;虚拟机是对整个计算机的抽象(包括操作系统、处理器和程序)。
结语:计算机系统是由硬件和软件组成的,它们共同协作以运行应用程序。计算机内部的信息被表示为一组组的位,他们依据上下文有不同的解释方式。程序被其他程序翻译成不同的形式,开始是ASCII文本,然后被编译器和连接器翻译成二进制可执行文本。
处理器读取并解释存储在主存里面的二进制指令。因为计算机把大量的时间用于存储器、I/O设备和CPU寄存器之间复制数据,所以将系统中的存储设备划分成层次结构---CPU寄存器在顶部,接着是多层的硬件高速缓存存储器、DRAM主存和磁盘存储器。在层次模型中,位于更高层的存储设备比底层的存储设备要更快,单位比特开销要更高。层次结构中较高层的存储设备可以看作是较低层次设备的高速缓存。
操作系统内核是应用程序和硬件之间的媒介。它提供三种基本的抽象:1、文件是对I/O设备的抽象;2、虚拟存储器是对主存和磁盘的抽象;3、进程是对处理器、主存和I/O设备的抽象。
第二章:信息的表示和处理
虚拟存储器:机器级程序将存储器视为一个非常大的字节数组,每个字节都由一个唯一的数字来标识,成为地址,所有的可能的地址的集合称为虚拟地址空间。
字:每个计算机都有一个字长,指明整数和指针数据的标称大小,因为虚拟地址是以这样的一个字来编码的。字长决定的最重要的系统参数就是虚拟地址空间的最大大小。字长为w,虚拟地址范围为0~2^w-1,最多访问2^w个字节;
在几乎所有的机器上,多字节对象被存储为连续的字节序列,对象的地址为所使用字节中最小的地址。
布尔运算(位级运算):~非;&与;|或;^异或;
掩码:位级运算,是一个位模式,表示从一个字中选出位的集合;
C语言逻辑运算:||或;&&与;!非;与布尔运算不一样,布尔运算对应的是数据的每个位进行与或非;还有一个区别是,如果对第一个参数求值就能确定表达式的结果,那么逻辑运算符就不会对第二个参数求值。
移位:左移最高位丢弃,低位补零;右移分为逻辑右移和算术右移。逻辑右移在左端补k个零;算数右移在左端补k个最高位有效位的值;对于无符号数据,右移必须是逻辑的;对有符号数据,两种都可以;几乎所有的编译器/机器组合都对有符号数据使用算数右移;
补码:在计算机系统中,数值一律用补码来表示和存储。原因在于,使用补码,可以将符号位和数值域统一处理;同时,加法和减法也可以统一处理。此外,补码与原码相互转换,其运算过程是相同的,不需要额外的硬件电路。
补码反码:反码表示法规定:正数的反码与其原码相同;负数的反码是对其原码逐位取反,但符号位除外。补码表示法规定:正数的补码与其原码相同;负数的补码是在其反码的末位加1。
有符号数和无符号数相互转换的一般规则是:数值可能会改变,但是位模式不变;
当表达式同时包含有符号数和无符号数,那么c语言会隐式地将有符号参数强制转换为无符号数;
扩展一个数字的位表示:无符号直接开头使用k个零扩展,有符号位最开头使用最高有效位进行扩展。Short转换为unsigned时,我们先要改变大小,之后再完成从有符号到无符号的转换。
截断数字:当把一个int强制转换成short时,在一个32位系统中,先把32位int截断为16位short int,这个16位的位模式就是32位int补码的低16位表示。当重新转换为32位int时,前面补最高有效位。对于一个无符号数,截断它到k位就等于计算对2^k求余;
无符号数:当有符号数与无符号数有隐式转换时会导致错误或者漏洞。避免这类错误的一种方法就是绝不使用无符号数。但是如果仅把字看作是位的集合,无符号数非常有用的,往一个字中放入描述各种布尔条件的标记时。
补码加法:当xy都是负数,并且x+y>=0时,负溢出;当xy都是正数,并且x+y<=0,得到正溢出。
补码的非:当x为有符号数最小数时,它的补码就是自己;其他情况下都是-x。
乘以常数:大多数机器上面,整数乘法指令相当慢,需要10个以上时钟周期。(加法、减法、位级运算、和移位只需要一个时钟周期。)通常可以重写为移位操作,例如:乘以14,可以重写为((x<<3)+(x<<2)+(x<<1)),更好的办法是写成为((x<<4)-(x<<1))。
除以2的幂:大多数机器除法比整数乘法更慢,需要30个或更多时钟周期。除以2的幂可以通过逻辑或者算数右移来实现。但不能推广到除以任意常数。
IEEE浮点数表示:将浮点数的位表示划分为三个字段,分别对这些值进行编码:
- 一个单独的符号位用于决定这个数是正数还是负数;
- K位的阶码用于对浮点数加权,权重是2的E次方;float里是23到30、double里是52到62;
- 尾数一个二进制小数,小数点在最高有效位的左边。float里是0到22、double里是0到51;
被编码的值可分为三种不同的情况:规格化的、非规格化的和无穷大,还有一种NaN。
舍入:因为表示方法限制了浮点数的范围和精度,浮点运算只能近似地表示实数运算。用舍入运算可以用期望的浮点形式表示出来。分四种情况:向偶数舍入、向零舍入、向下舍入和向上舍入。
浮点运算:浮点假发不具有结合性;浮点加法满足单调性属性;
结语:计算机将信息按位编码,通常组织成字节序列。用不同的编码方式表示整数、实数和字符串。不同的计算机模型在编码数字和多字节数据中的字节排序时使用不同的约定。
C语言的设计可以包含多种不同字长和数字编码的实现。大多数机器对整数采用补码的方式编码,而对浮点数采用IEEE浮点编码。
在相同长度的无符号和有符号整数之间进行强制类型转换时,大多数C语言实现遵循的原则是底层的位模式不变。
由于编码的长度有限,与传统整数和实数运算相比,计算机运算具有完全不用的属性。当超出表示范围时,有限长度能够引起数值溢出。当浮点数非常接近与0.0,从而转换成零时,也会下溢。
和大多数其他程序语言一样,C语言实现的有限整数运算和真实的整数运算相比,有一些特殊的属性,例如:由于溢出,表达式x*x能够得出负值。但是无符号和补码的运算都满足整数运算的许多其他属性,例如结合律、交换律和分配律。这就允许编译器做很多优化,如用移位取代表达式里面的7*x。
几种使用位级运算和算数运算组合和方法:使用补码运算,~x+1等价于-x利用掩码运算。(2^k)-1可以用(1<<8)-1表示。
浮点数通过将数字编码为x*2^y的形式来近似地表示实数。常用的是IEEE浮点表示。提供单精度和双精度。IEEE也可以表示特殊值,例如正无穷、负无穷和NaN。
浮点运算只有有限的范围和精度,而且不遵守普遍的算数属性,比如结合律