返回顶部

计算机系统结构的基础知识

计算机系统结构的基本概念

计算机系统的层次结构

  1. 计算机系统= 硬件/固件 + 软件
  2. 计算机语言从低级向高级发展:高一级语言的语句相对于低一级语言来说功能更强。,更便于应用,但又都以低级语言为基础。
  3. 从计算机语言的角度,把计算机系统按照功能划分成多层次结构。
    • 物理机:用硬件或固件实现的机器
    • 虚拟机:由软件实现的机器,虚拟机中有些操作可以由硬件或固件实现。固件是具有软件功能的硬件。
    • 各机器级的实现主要靠翻译或解释或两者结合。
      • 翻译:先用转换程序将高一级机器上的程序转换成低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。
      • 解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。
    • 解释执行比编译后再执行所花的时间多,但占用的存储空间较少。

计算机系统结构的定义

  1. 传统机器程序员所看到的计算机属性,即概念性结构与功能特性。
  2. 按照计算机系统的多级层次结构,不同级程序员所看到的计算机具有不同的属性。
  3. 透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。
  4. 广义的系统结构定义:指令系统结构、组成、硬件。

计算机系统结构的实质:确定计算机系统中软硬件的界面,界面之上是软件实现的功能,界面之下是硬件和固件实现的功能。

计算机组成和计算机实现

  1. 计算机系统结构:计算机系统的软、硬件的界面,即机器语言程序员所看到的传统机器所具有的属性。
  2. 计算机组成:计算机系统结构的逻辑实现。
    • 包含物理机器级中的数据流和控制流的组成以及逻辑设计等。
    • 着眼于物理机器级内各事件的排序方式与控制方式、各部件的功能以及各部件之间的联系。
  3. 计算机实现:计算机组成的物理实现
    • 包括处理机、主存等部件的物理结构。器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却以及整机装配技术等。
    • 着眼于器件技术(起主导作用)、微组装技术。

具有相同系统结构的计算机可以采用不同的计算机组成。同一种计算机组成又可以采用多种不同的计算机实现。

  1. 系列机:由同一厂家生产的具有相同系统结构,但具有不同组成和实现的一系列不同型号的机器。

计算机系统结构的分类

常见的计算机系统结构分类法有3种:Flynn分类法冯氏分类法Handler分类法

  1. Flynn分类法

    • 按照指令流和数据流的多倍性进行分类。指令流:计算机执行的指令序列;数据流:由指令流调用的数据序列。多倍性:在系统最受限的部件上,同时处于同一执行阶段的指令或数据的最大数目。
    • 把计算机系统的结构分为4
      • 单指令流单数据流SISD
      • 单指令流多数据流SIMD
      • 多指令流单数据流MISD
      • 多指令流多数据流MIMD
    • 4类计算机的基本结构
      • IS:指令流
      • DS:数据流
      • CS:控制流
      • CU:控制部件
      • PU:处理部件
      • MMSM:存储器
  2. 冯氏分类法

    • 用系统的最大并行度对计算机进行分类。最大并行度:计算机系统在单位时间内能够处理的最大的二进制位数。如:用平面直角坐标系中的一个点代表一个计算机系统,其横坐标表示字宽(n位),纵坐标表示一次能同时处理的数字(m字),\(m \times n\)就表示了其最大并行度。

    • 4类不同最大并行度的计算机系统结构

      • 字串位串:\(n = 1 , m = 1\):第一代计算机发展初期的纯串行计算机。
      • 字串位并:\(n > 1 , m = 1\):传统的单处理机,同时处理单个字的多个位。
      • 字并位串:\(n = 1 , m > 1\):同时处理多个字的同一位。
      • 字并位并:\(n > 1 , m > 1\):同时处理多个字的多个位。
    • 平均并行度:与最大并行度密切相关的一个指标。取决于系统的运用程度,与应用程序有关。

      假设每个时钟周期内能同时处理的二进制位数为\(P_i\),则\(T\)个时钟周期内的平均并行度为:

      \[p_{a} = \frac{\sum\limits_{i = 1}^{T}p_i}{T} \]

      系统在\(T\)个时钟周期内的平均利用率定义为:

      \[\mu = \frac{P_a}{P_m} = \frac{\sum\limits_{i = 1}^Tp_i}{TP_m} \]

  3. Handler分类法

    • 根据并行度和流水线对计算机进行分类。
    • 把计算机的硬件结构分成3个层次:
      • 程序控制部件(PCU)的个数k
      • 算术逻辑部件(ALU)或处理部件(PE)的个数d
      • 每个算术逻辑部件包含基本逻辑线路(ELC)的套数w
    • 用公式表示:t(系统型号) = (k , d , w)
    • 进一步改进:t(系统型号)=(k x k' , d x d' , w x w')
      • k':宏流水线中程序控制部件的个数。
      • d':指令流水线中算术逻辑部件的个数。
      • w':操作流水线中基本逻辑线路的套数。

计算机系统的设计

计算机系统设计的定量原理

4个定量原理

以经常性事件为重点

  • 对经常发生的情况采用优化方法的原则进行选择,以得到更多的总体上的改进。
  • 优化是指分配更多的资源、达到更高的性能或者分配更多的电能等。

Amdahl定律

加快某部件执行速度所能获得的系统性能加速比,受限于该部件的执行时间占系统中总执行时间的百分比。

系统性能加速比:

\[加速比 = \frac{系统性能_{改进后}}{系统性能_{改进前}} = \frac{总执行时间_{改进前}}{总执行时间_{改进后}} \]

加速比依赖于两个因素:

  • 可改进比例\(F_e\):在改进前的系统中,可改进部分的执行时间在总的执行时间中所占的比例,它总是小于等于1的。 例如:一个需要运行60秒的程序中有20秒的运算可以加速,那么这个比例就是\(\frac{20}{60}\)
  • 部件加速比\(S_e\):可改进部分改进以后性能提高的倍数。它是改进前所需的执行时间与改进后执行时间的比。一般情况下部件加速比是大于1的。例如:若系统改进后,可改进部分的执行时间是2秒,而改进前其执行时间是5秒,则部件加速比为\(\frac{5}{2}\)

改进后程序的总执行时间\(T_n\)

\[T_n = T_0(1 - F_e + \frac{F_e}{S_e}) \]

\(T_0\):改进前整个程序的执行时间。\(1-F_e\):不可改进比例。

系统加速比\(S_n\)为改进前与改进后总执行时间之比:

\[S_n = \frac{T_0}{T_n} = \frac{1}{(1 - F_e) + \frac{F_e}{S_e}} \]

例1.1 将计算机系统中某一功能的处理速度加快15倍,但该功能的处理时间仅占整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提高多少?

:由题可知:\(F_e = 40\% = 0.4 , S_e = 15\)

根据Amdahl定律可知:

\[S_n = \frac{1}{(1 - F_e) + \frac{F_e}{S_e}} = \frac{1}{(1 - 0.4) + \frac{0.4}{15}} \approx 1.6 \]

采用此增强功能方法后,能使整个系统的性能提高到原来的\(1.6\)倍。

例1.2 某计算机系统采用浮点运算部件后,使浮点运算速度提高到原来的25倍,而系统运行某一程序的整体性能提高到原来的4倍,试计算该程序中浮点操作所占的比例。

由题可知:\(S_e = 25 , S_n = 4\)

根据Amdahl定律可知:

\[4 = \frac{1}{1 - F_e + \frac{F_e}{25}} \]

由此可得:\(F_e = 78.1\%\)。即程序中浮点操作所占的比例为\(78.1\%\)

Amdahl定律:一种性能改进的递减规则,即如果仅仅对计算任务中的一部分做性能改进,则改进得越多,所得到的总体性能的提升就越有限。

重要推论:如果只针对整个任务的一部分进行改进和优化,那么所获得的加速比不超过:\(\frac{1}{1 - 可改进比例}\)

CPU性能公式

执行一个程序所需的CPU时间:CPU时间= 执行程序所需的时钟周期数 X 时钟周期时间

其中:时钟周期时间是系统时钟频率的倒数。

每条指令执行的平均时钟周期数CPI:CPI = 执行程序所需的时钟周期数 ÷ IC

IC:所执行的指令条数

程序执行的CPU时间可以写成:CPU时间 = IC X CPI X 时钟周期时间

CPU的性能取决于三个参数:

  • 时钟周期时间:取决于硬件实现技术和计算机组成。
  • CPI : 取决于计算机组成和指令系统的结构。
  • IC:取决于指令系统的结构和编译技术。

对CPU性能公式进一步细化:

假设:计算机系统有\(n\)种指令;第\(i\)种指令的处理时间为\(CPI_i\);在程序中第\(i\)种指令出现的次数为\(IC_i\),则:CPU时钟周期数 = \(\sum\limits_{i = 1}^{n}(CPI_i \times IC_i)\)

CPU时间 = 执行程序所需的时钟周期数 x 时钟周期时间 = \(\sum\limits_{i = 1}^{n}(CPI_i \times IC_i)\times 时钟周期时间\)

CPI可以表示为:\(CPI = \frac{时钟周期数}{IC} = \frac{\sum\limits_{i = 1}^{n}(CPI_i \times IC_i)}{IC} = \sum\limits_{i = 1}^{n}(CPI_i \times \frac{IC_i}{IC})\)

其中\(\frac{IC_i}{IC}\)反映了第\(i\)种指令在程序中所占的比例。

例1.3 假设FP指令的比例为25%,其中,FPSQR占全部指令的比例为2%FP操作的CPI4FPSQR操作的CPI20 ,其他指令的平均CPI1.33。现有两种改进方案,第一种是把FPSQR操作的CPI减至2,第二种是把所有的FP操作的CPI减至2,试比较两种方案对系统性能的提高程度。

没有改进前,每条指令的平均时钟周期CPI为:

\[CPI = \sum\limits_{i = 1}^{n}(CPI \times \frac{IC_i}{IC}) = (4 \times 25\%) + (1.33 \times 75\%) = 2 \]

采用第一种方案FPSQR操作的CPI\(CPI_{FPSQR} = 20\)减至\(CPI_{FPSQR} = 2\),则整个系统的指令平均时钟周期数为:

\[CPI_1 = CPI - (CPI_{FPSQR} - CPI_{FPSQR}') \times 2\%= 2 - (20 - 2) \times 2\% = 1.64 \]

采用第二种方案 所有FP操作的CPI\(CPI_{FP} = 4\)减至\(CPI_{FP} = 2\),则整个系统的指令平均时钟周期数为:

\[CPI_2 = CPI - (CPI_{FP} - CPI_{FP}') \times 25\% = 2 - (4 - 2) \times 25\% = 1.5 \]

从降低整个系统的指令平均时钟周期的程度来看,第二种方案优于第一种方案。

例1.4 考虑条件分支指令的两种不同设计方法:

  • \(CPU_1\):通过比较指令设置条件码,然后测试条件码进行分支。
  • \(CPU_2\):在分支指令中包括比较过程。

在这两种CPU中,条件分支指令都占用2个时钟周期,而所有其它指令占用1个时钟周期。对于\(CPU_1\),执行的指令中分支指令占30%;由于每条分支指令之前都需要有比较指令,因此比较指令也占30%。由于\(CPU_1\)在分支时不需要比较,因此\(CPU_2\)的时钟周期时间是\(CPU_1\)1.35倍。问:哪一个CPU更快?如果\(CPU_2\)的时钟周期时间只是\(CPU_1\)1.15倍,哪一个\(CPU\)更快呢?

我们不考虑所有系统问题,所以可用CPU性能公式。占用2个时钟周期的分支指令占总指令的30%,剩下的指令占用1个时钟周期。

所以\(CPI_1 = 0.3 \times 2 + 0.70 \times 1 = 1.3\)

\(CPU_1\)性能为:\(总CPU时间_1 = IC_1 \times 1.3 \times 时钟周期_1\)

根据假设有:\(时钟周期_2 = 1.35 \times 时钟周期_1\)

\(CPU_2\)中没有独立的比较指令,所以\(CPU_2\)的程序量为\(CPU_1\)70%,分支指令的比例为:\(\frac{30\%}{70\%} = 42.8\%\)

这些分支指令占用2个时钟周期,而剩下的57.2%的指令占用1个时钟周期,因此:

\[CPI_2 = 0.428 \times 2 + 0.572 \times 1 = 1.428 \]

因为\(CPU_2\)不执行比较,故:\(IC_2 = 0.7 \times IC_1\)

因此\(CPU_2\)性能为:

\[\begin{align} 总CPU时间_2 &= IC_2 \times CPI_2 \times 时钟周期_2\\ &=0.7 \times IC_1 \times 1.428 \times 1.35 \times 时钟周期_1\\ &=1.349 \times IC_1 \times 时钟周期_1 \end{align} \]

在这些假设之下,尽管\(CPU_2\)执行指令条数较少,\(CPU_1\)因为有着更短的时钟周期,所以\(CPU_1\)快。

如果\(CPU_2\)的时钟周期时间仅仅是\(CPU_1\)1.15倍,则\(时钟周期_2 = 1.15\times 时钟周期_1\)

\(CPU_2\)的性能为:

\[\begin{align} 总CPU时间_2 &= IC_2 \times CPI_2 \times 时钟周期_2\\ &=0.7 \times IC_1 \times 1.428 \times 1.15 \times 时钟周期_1\\ &=1.15 \times IC_1 \times 时钟周期_1 \end{align} \]

因此\(CPU_2\)由于执行更少指令条数,比\(CPU_1\)运行更快。

程序的局部性原理

程序执行时所访问的存储器地址分布不是随机的,而是相对地簇聚。

常用的一个经验规则:程序执行时间的90%都是在执行程序中10%的代码。

程序的时间局部性:程序即将用到的信息很可能就是目前正在使用的信息。

程序的空间局部性:程序即将用到的信息很可能与目前正在使用的信息在空间上相邻或者临近。

计算机系统设计者的主要任务

  1. 计算机系统设计者的任务包括:指令系统的设计、数据表示的设计、功能的组织、逻辑设计以及其物理实现等。
  2. 设计一个计算机系统大致要完成3个方面的工作。
    • 确定用户对计算机系统的功能、价格和性能的要求;
    • 软硬件功能分配;
    • 设计出生命周期长的系统结构。

计算机系统设计的主要方法

  1. 由上往下设计:从层次结构中的最上面一级开始,逐层往下设计各层的机器;适用于专用机的设计,而不适合通用机的设计。
  2. 由下往上设计:从层次结构的最下面一级开始,逐层往上设计各层的机器;采用这种方法时,软件技术完全处于被动状态,这会造成软件和硬件的脱节,使整个系统的效率降低。
  3. 从中间开始设计:“由上往下”和“由下往上”设计方法的主要缺点是软、硬件设计分离和脱节;解决方法是综合考虑软、硬件的分工,从中间开始设计。“中间”:层次结构中的软硬件的交界面,目前一般是在传统机器语言机器级与操作系统机器级之间。从中间开始设计首先要进行软、硬件功能分配,确定好这个界面。然后从这个界面开始,软件设计者开始往上设计。操作系统、汇编、编译系统等,硬件设计者开始往下设计传统机器级、微程序机器级等。

计算机系统的性能评测

总执行时间 : 机器执行所有测试程序的总时间

平均执行时间:各测试程序执行时间的算术平均值:\(S_m = \frac{1}{n}\sum\limits_{i = 1}^{n}T_i\),其中\(T_i\)表示第\(i\)个测试程序的执行时间,\(n\)表示测试程序组中程序的个数。

加权执行时间:各测试程序执行时间的加权平均值:\(A_m = \sum\limits_{i = 1}^{n}W_i \times T_i\),其中\(W_i\)表示第\(i\)个测试程序在测试程序组中所占的比重,且\(\sum\limits_{i = 1}^{n}W_i = 1\)\(T_i\)表示第\(i\)个测试程序的执行时间。

调和平均值法\(H_m = \frac{n}{\sum\limits_{i = 1}^{n}\frac{1}{R_i}}= \frac{n}{\sum\limits_{i = 1}^{n}T_i}\)。其中\(R_i\)表示由\(n\)个程序组成的工作负荷中执行第\(i\)个程序的速度,\(R_i = \frac{1}{T_i}\)\(T_i\)表示第\(i\)个程序的执行时间。加权调和平均公式:$H_m = (\sum\limits_{i = 1}{n}\frac{W_i}{R_i}) = (\sum\limits_{i = 1}{n}W_iT_i) $。

几何平均值法:以某台计算机的性能作为参考标准,其他计算机性能则除以该参考标准而获得一个比值:\(G_m = \sqrt [n]{\prod\limits_{i = 1}^{n}R_i} = \sqrt [n]{\prod\limits_{i = 1}^{n}\frac{1}{T_i}}\),其中\(R_i\)表示由\(n\)个程序组成的工作负荷中执行第\(i\)个程序的速度,\(R_i = \frac{1}{T_i}\)\(T_i\)表示第\(i\)个程序的执行时间。

计算机系统结构中并行性的发展

并行性的概念

  1. 并行性:计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。只要在时间上相互重叠,就存在并行性。同时性:两个或两个以上的事件在同一时刻发生。并发性:两个或两个以上的事件在同一时间间隔内发生。
  2. 从处理数据的角度来看,并行性等级从低到高可分为:
    • 字串位串:每次只对一个字的一位进行处理。最基本的串行处理方式,不存在并行性。
    • 字串位并:同时对一个字的全部位进行处理,不同字之间是串行的。
    • 字并位串:同时对许多字的同一位进行处理,具有较高的并行性。
    • 字并位并:同时对许多字的全部位或部分位进行处理。最高一级的并行。
  3. 从执行程序的角度来看,并行性等级从低到高可分为:
    • 指令内部并行:单条指令中各微操作之间的并行。
    • 指令级并行:并行执行两条或两条以上的指令。
    • 线程级并行:并行执行两个或两个以上的线程。通常是以一个进程内派生的多个线程为调度单位。
    • 任务级或过程级并行:并行执行两个或两个以上的过程或任务(程序段)以子程序或进程为调度单元。
    • 作业或程序级并行:并行执行两个或两个以上的作业或程序。

提高并行性的技术途径

  1. 时间重叠:引入时间因素,让多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部件,以加快硬件周转而赢得速度。
  2. 资源重复:引入空间因素,以数量取胜。通过重复设置硬件资源,大幅度地提高计算机系统的性能。
  3. 资源共享:这是一种软件方法,它使多个任务按一定时间顺序轮流使用同一套硬件设备。

习题

后面再补充

posted @ 2022-03-28 13:36  cherish-lgb  阅读(1092)  评论(1编辑  收藏  举报