GPU计算性能

单核CPU无论在PC端，还是服务器上，基本上已经退出历史舞台，目前主流的计算平台是使用多核(multiple cores)的CPU，以及众核(many cores)的GPU。另外处理器与内存访问速度差距也不断增大，为克服访存瓶颈，主要采用两种方法。其中多核CPU与单核CPU，都是利用Cache来掩盖访问系统内存的延迟，以减轻访存带宽的压力，其芯片的较大面积也都贡献给Cache。在另一端，GPU通过同时运行很多简单的线程，不使用或者只利用相对较小的Cache，而主要通过线程间的并行(Thread Level Parallelism, TLP)来隐藏内存访问延迟，当一部分线程因为访存停滞的时候，另一部分线程会接着执行，使得处理单元不会空闲下来。

目前的异构计算平台，同时采用这两种截然不同的架构，使得性能预测和优化都不太容易，面对一个给定的计算负载，应该如何分发能够达到性能最佳？对芯片架构师而言，在面积受限的芯片上，怎样合理部署处理单元、Register File和Cache等等也是让人挠头的事情。希望能够为理解优化性能提供参考，定义了一个统一仿真模型，可以容纳延展这两种不同特点的架构设计。这个模型对应一个想象的混合计算平台，该平台由很多简单的处理单元，以及较大的共享缓存构成，通过灵活配置一系列参数，包括处理单元个数、缓存大小以及缓存和内存的访问延迟等等，可以观察不同参数变化，对计算性能的影响。

为保持模型简单，论文假设所有线程相互不共享数据，且系统内存带宽足够大。如下图所示，当线程数量较少的时候，随着线程数量增加，性能开始提升，而当线程数量到达转折点，Cache不能够容纳所有线程的工作集时，性能反而下降。之后，随着线程数量越来越多，由于有足够的线程来掩盖Cache访问不命中带来内存访问延迟，性能又接着上升，直达到平台可获得的最大性能。可以认为MC Region对应多核CPU的情形，而MT Region自然对应有超多线程的GPU，MC Region和MT Region之间的性能波谷区域，在架构设计和程序优化中，都是要努力避免的。

以下具体推导下参数曲线对应的公式，下表列出计算模型涉及的参数，左边是平台相关的，右边跟运算任务有关。

GPU计算

从处理单元设计和存储层次结构两个方面，探讨GPU不同于CPU的特点，再次确认反复申明的GPU，更重视整体的Throughput，而CPU更在乎具体任务的Latency。CPU和GPU从一开始就是为不同的目标而设计，CPU虽然也可以同时执行多个线程，但其旨在高效地处理串行指令，通过许多复杂技术优化，提高指令级并行，以便可以尽快执行串行程序。GPU同时执行成千上万个线程，牺牲单个线程性能换取整体性能最大化。下图对CPU与GPU的抽象架构进行了比对，其中Control是控制器、Core是处理单元、Cache指的是各级缓存、DRAM就是内存。可以看到GPU设计者将更多的晶体管用作执行单元，而不是像CPU那样用作复杂的控制逻辑和缓存。

在下面内容里，会具体讨论这两种设计面向带来的影响，尽量不拘泥具体产商的特定GPU产品，而是希望能给出一般的指引，但是因为文本材料的优势，以及在通用计算领域明显的优势地位，大概还是不能脱离Nvidia GPU的语境， AMD GPU的处理单元设计细节与Nvidia有较大不同，以后可以专文讨论。

SIMT和硬件多线程

根据计算机历史上有名的的费林分类法(Flynn's Taxonomy)，如下图所示计算机体系架构可以简单分为四类，分别是：

单一指令流单一数据流计算机(SISD, Single Instruction Single Data)
单一指令流多数据流计算机(SIMD, Single Instruction Multiple Data)
多指令流单一数据流计算机(MISD, Multiple Instruction Single Data)
多指令流多数据流计算机(MIMD, Multiple Instruction Multiple Data)

单核CPU可以归类为SISD，多核CPU属于MIMD。重点关注的SIMD指的是采用一个控制器来控制多个处理单元，同时对一组数据的元素分别执行相同的操作从而实现空间上并行的技术。传统CPU的指令扩展SSE和NEON都属于典型的SIMD。现代GPU在SIMD基础上发展出SIMT(Single Instruction Multiple Thread)的执行架构。传统SIMD是一个线程调用向量处理单元(Vector ALU)执行向量指令来操作向量寄存器完成运算，而SIMT往往由一组标量处理单元(Scalar ALU)构成，每个处理单元对应一个硬件线程，所有处理单元共享指令预取/译码模块，并接收同一指令共同完成SIMD类型运算，运行其上的线程，可以有自己的寄存器堆，独立的内存访问寻址以及执行分支。以Nvida CUDA为例来，介绍SIMT是如何运作的。下图是有关分发CUDA的计算任务到GPU硬件上执行，展示了软硬件视角各个层级的对应关系。

先介绍层级图右面的GPU硬件层次，CUDA的GPU有很多SM(Streaming Multiprocesso)组成。一个SM又有很多SP(Streaming Processor)构成，SP是每个线程具体执行指令所在，SP也采用流水线设计，提高指令级并行，一般都是顺序执行，很少使用分支预测、动态执行等复杂技术。

在GPU通用计算语境下，GPU设备上执行的程序被称为Kernel，针对某个Kernel分发的所有线程，都执行相同的程序，这些线程被组织成一系列层次结构，也就是Grid和Block，如层级图左边所示。Grid规定各个维度Block的数量，Block规定各个维度线程的数量，尺寸大小都是在CUDA程序中分发Kernel时指定。下图程序中vecAdd就是Kernel程序，Kernel的分发是由<<<...>>>语法定义，其中规定了要分发的Kernel程序，Grid和Block的尺寸，以及Kernel程序的参数。

在实际执行过程中，GPU会以Block为单位，把相同Block的线程分配给同一个SM进行运算，Block中的线程可以通过Shared Memory交换数据(注：Shared Memory访问性能类似L1，与Cache由硬件控制对软件透明不同，Shared Memory由软件显式移动数据)，并支持相互同步操作。在硬件内部，Block进一步会被为分组成Warp，Warp是GPU硬件最小调度单位，Warp内的线程被分配给SP，按照SIMD的模式工作，也就是这些线程共享同样的PC(程序计数器)，以锁步(Lockstep)的方式执行指令。目前支持CUDA的GPU，其Warp大小都是32，SM中SP的数量可能只有8或者16，在这种情况下，一条指令Warp需要跨几个时钟分批执行。再来看下GPU硬件可以支持的线程数量，以Fermi GF100为例，该GPU一共有16个SM，每个SM最多可以容纳48个Warp，也就是1536个线程，整个GPU可以支持24576 个线程同时在线。可以与CPU对照下，消费级CPU一般有2~8个核，就算打开Hyperthreading，一共也就支持十几个硬件线程同时在线。为了避免一些高延迟指令引起处理单元流水线停顿，CPU和GPU采取了完全不同的做法。

CPU的做法是一方面穷尽所能充分挖掘指令级并行来规避，另一方面通过各级Cache来掩盖访问内存延迟，万不得已CPU才会切换到别的硬件线程执行。硬件线程数量太多切换太频繁，即使有助于整体吞吐却恶化单个线程的延迟，对CPU设计来说也是不可接受的，所以，可以看到Hyperthread的数目一般都比较少。
GPU的做法是另外一种思路，大规模数据并行带来海量的可执行线程，GPU完全可以通过切换到别的线程Warp，规避指令延迟带来处理单元的停顿。这种切换会非常频繁，需要在很短时间完成(比如一个时钟)，所以无论每个线程执行需要的的寄存器堆，还是Block之内线程的Shared Memory，从一开始就要分配妥当，切换过程中线程上下文一直驻留，直到线程或者整个Block执行结束才能释放。所以相比CPU，GPU的Register File大小非常惊人，而其处理单元的设计却可以异常简单。

GPU的Memory Hierarchy

一方面GPU通过同时运行很多简单的线程，不使用或者只利用相对较小的Cache，而主要通过线程间的并行来隐藏内存访问延迟。另一方面显存带宽对整体计算吞吐又有重要意义，直接关系到GPU性能伸缩能力。所以，如下图所示，GPU存储层次设计的时候，相比Latency，更重视Throughput，而且各级存储容量相对偏小。

以Fermi GF100 GPU为例，下图是其存储层次结构，Fermi GPU是CUDA GPU第一次添加L1和L2的支持，其中L1和Shared Memory共享同一块片上内存，每个SM各64K大小，可以根据要求以48K/16K或者16K/48K在L1和Shared Memory之间分配。

下面表格是几代CUDA GPU的L1、L2和Register File大小配置。可以看到，最早的CUDA GPU，也就是G80都没有通用的L1和L2，只有16K的Shared Memory。至于为什么添加Cache的支持，主要是考虑到对某些应用来说，可能没有足够的数据并行来掩藏访存延迟，而对另外一些应用其数据重用模式不可预测，无法有效利用软件控制的Shared Memory，总之，为了让GPU变得更通用，能够兼容更多的计算范式。

对GF100，RF大小总共为2048K，L1为48x16=768K，L2也是768K，RF反而比L1和L2都要大，而L1和L2差不多，其它GPU也有类似现象。

参考资料:

Many-core vs many-thread machines: Stay away from the valley
Cuda C Programming Guide
CUDA Warps and Occupancy
SIMD < SIMT < SMT: parallelism in NVIDIA GPUs
The Top 10 Innovations in the New NVIDIA Fermi Architecture, and the Top 3 Next Challenges