nvidia[GPU架构发展对比]
1 引言
方便检索
2 名词解释
FLOPS:“每秒浮点运算次数”,“每秒峰值速度”,是“每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。所谓的“浮点运算”,实际上包括了所有涉及小数的运算。这类运算在某类应用软件中常常出现,而它们也比整数运算更花时间。现今大部分的处理器中,都有一个专门用来处理浮点运算的“浮点运算器”(FPU)。也因此FLOPS所量测的,实际上就是FPU的执行速度。而最常用来测量FLOPS的基准程式(benchmark)之一,就是Linpack。
- 一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
- 一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
- 一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1太拉)
- 一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
- 一个EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮点运算,
- 一个ZFLOPS(zettaFLOPS)等于每秒十万京(=10^21)次的浮点运算。
浮点精度:半精度,单精度,双精度。根据nvidia官方的白皮书里面涉及的:半精度为FP16(浮点数16位);单精度为FP32(浮点数32位);双精度为FP64(浮点数64位)。
INT8:8-bit的整数运算(一个字节),新增的增强8位整数支持是可以在一个周期内, 对打包在32-bit里的4个8位整数(记做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均为32-bit整数, A和B均为8-bit整数.理论上INT8能以400%的性能(相比于float)完成8-bit整数的点乘和累加操作. 对最近流行的神经网络推导很有用途.
参考文献:
- google搜索【"Architecture Whitepaper" site:nvidia.com】
- [浮点数运算] FLOPS
- [所有型号简单链接] cuda-gpus
- [google][whitepaper nvidia filetype:pdf]
- nvidia/white-papers
- [费米&开普勒&&麦克斯韦等架构白皮书] NVIDIA's logical pipeline
- [tesla 产品文献] tesla-product-literature
- [fermi架构 pdf] fermi-gpu-architecture
- [fermi架构 pdf] fermi-gpu-architecture
- [kepler架构 pdf] kepler-gpu-architecture
- [kepler架构 pdf] kepler-gk110-gpu-architecture
- [maxwell架构 pdf] maxwell-gpu-architecture
- [gtx 980白皮书&Maxwell] GTX_980_Whitepaper
- [gtx 1080白皮书] NVIDIA GeForce GTX 1080
- [pascal架构] pascal-gpu-architecture
- [pascal架构 pdf] pascal-gpu-architecture
- [volta架构] volta-gpu-architecture
- [volta架构 pdf] volta-gpu-architecture
- [volta架构 pdf] volta-gpu-architecture
- [turing架构白皮书 pdf] NVIDIA-Turing-Architecture-Whitepaper
- [Ampere架构 pdf]nvidia-ampere-architecture-whitepaper
- [Hopper架构 pdf] NVIDIA Grace Hopper Superchip Architecture
- [Hopper架构 pdf] NVIDIA DGX GH200 AI Supercomputer
- [显卡之间对比] WIN10 X64下GTX1080TI 深度学习平台搭建简单教程及晒单
- [GPU调度]GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed∗