NVIDIA Turing Architecture架构设计(上)
NVIDIA Turing Architecture架构设计(上)
在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界领先的并行处理引擎。除了渲染高度逼真和身临其境的 3D 游戏外, NVIDIA GPUs 还可以加速内容创建工作流、高性能计算( HPC )和数据中心应用程序,以及众多人工智能系统和应用程序。新的 NVIDIA 图灵 GPU 架构建立在 GPU 长期领导地位的基础上。
图灵代表了十多年来最大的体系结构飞跃,它提供了一个新的核心 GPU 体系结构,使 PC 游戏、专业图形应用和深度学习推理的效率和性能有了重大提高。
使用新的基于硬件的加速器和混合渲染方法,图灵融合了光栅化、实时光线跟踪、人工智能和模拟技术,在电脑游戏中实现令人难以置信的真实感、由神经网络驱动的惊人新效果、电影质量的交互体验以及创建或导航复杂 3D 模型时的流体交互。
在核心架构中,图灵显著提升图形性能的关键因素是一个新的 GPU 处理器(流式多处理器 SM )架构,它提高了着色器执行效率,以及一个新的内存系统架构,其中包括对最新 GDDR6 内存技术的支持。
图像处理应用程序,如 ImageNet Challenge 是深度学习的首批成功案例之一,因此,人工智能有潜力解决图形中的许多重要问题也就不足为奇了。图灵的张量核心支持一套新的基于深度学习的神经网络,除了为基于云的系统提供快速的人工智能推断外,还为游戏和专业图形提供惊人的图形效果。
长期以来备受追捧的计算机图形绘制的圣杯——实时光线跟踪现在已经在具有 NVIDIA 图灵 GPU 体系结构的单 GPU 系统中实现。图灵 GPUs 引入了新的 RT 核心,加速器单元致力于以非凡的效率执行光线跟踪操作,消除了过去昂贵的基于软件仿真的光线跟踪方法。这些新装置与 NVIDIA RTX ™ 软件技术和复杂的过滤算法使图灵能够提供实时光线跟踪渲染,包括具有物理精确阴影、反射和折射的真实感对象和环境。
在图灵开发的同时,微软在 2018 年初发布了 directmlforai 和 DirectX 光线跟踪( DXR ) api 。通过图灵 GPU 架构和微软新的 AI 和光线追踪 API 的结合,游戏开发者可以在他们的游戏中快速部署实时 AI 和光线追踪。
除了具有开创性的人工智能和光线跟踪功能外,图灵还包括许多新的高级着色功能,这些功能可以提高性能,增强图像质量,并提供更高层次的几何复杂性。
图灵 GPUs 还继承了对 NVIDIA CUDA 的所有增强™ Volta 体系结构中引入的平台,可提高计算应用程序的能力、灵活性、生产力和可移植性。诸如独立线程调度、多应用程序地址空间隔离的硬件加速多进程服务( MPS )和协作组等特性都是图灵 GPU 体系结构的一部分。
一些新的 NVIDIA GeForce ®和 NVIDIA Quadro ™ GPU 产品将由图灵 GPUs 提供动力。在本文将重点介绍 NVIDIA 旗舰图灵 GPU 的体系结构和性能,该产品代号为 TU102 ,将在 GeForce RTX 2080 Ti 和 Quadro RTX 6000 上交付。技术细节,包括 TU104 和 TU106 图灵 GPUs 的产品规范,见附录。
图 1 展示了图灵如何用一个全新的架构来重塑图形,这个架构包括增强的张量核心、新的 RT 核心和许多新的高级着色功能。图灵结合了可编程着色、实时光线跟踪和人工智能算法,为游戏和专业应用程序提供了难以置信的真实感和物理精确的图形。
图 1. NVIDIA 图灵关键特性
NVIDIA 图灵是世界上最先进的 GPU 体系结构。高端 TU102 GPU 包括在台积电 12 纳米 FFN ( FinFET NVIDIA )高性能制造工艺上制造了 186 亿个晶体管。
GeForce RTX 2080 Ti Founders Edition GPU 提供了以下卓越的计算性能:
14 . 2 TFLOPS 公司1峰值单精度( FP32 )性能
28 . 5 吨1半精度( FP16 )性能的峰值
14 . 2 提示1通过独立的整数执行单元与 FP 并行
113 . 8 张量 TFLOPS1,2
10 千兆射线/秒
78 太拉 RTX – 操作
Quadro RTX 6000 提供了专为专业工作流程设计的卓越计算性能:
16 . 3 TFLOPS 公司1峰值单精度( FP32 )性能
32 . 6 TFLOPS 公司1半精度( FP16 )性能的峰值
16 . 3 TIPS1 与 FP 并行,通过独立的整数执行单元
130 . 5 张量 TFLOPS1,2
10 千兆射线/秒
84 太拉 RTX – 操作
1基于 GPU 升压时钟。2FP16 矩阵数学与 FP16 累加。
下面的部分将以摘要格式描述图灵的主要新创新。本文提供了每个领域的更详细描述。
新的流式多处理器( SM )
与图灵新一代处理器相比,新一代图灵处理器的效率提高了 50% 。这些改进是由两个关键的体系结构更改实现的。首先,图灵 SM 添加了一个新的独立整数数据路径,它可以与浮点数学数据路径同时执行指令。在前几代中,执行这些指令会阻止浮点指令的发出。其次, SM 内存路径被重新设计,将共享内存、纹理缓存和内存负载缓存统一到一个单元中。这意味着普通工作负载的一级缓存可用带宽增加 2 倍,容量增加 2 倍以上。
图灵张量核
张量核心是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。与 Volta 张量核类似,图灵张量核在深度学习神经网络训练和推理操作的核心为矩阵计算提供了巨大的速度。图灵 GPUs 包括了一个新版本的张量核心设计,它已经增强了推断能力。图灵张量核心增加了新的 INT8 和 INT4 精度模式来推断可以容忍量化且不需要 FP16 精度的工作负载。图灵张量核心首次为 GeForce 游戏 PC 和基于 Quadro 的工作站带来了新的基于深度学习的人工智能能力。一种称为深度学习超级采样( DLSS )的新技术由张量核提供动力。 DLSS 利用深度神经网络提取渲染场景的多维特征,并智能地结合多帧图像中的细节来构造高质量的最终图像。与传统技术(如 TAA )相比, DLSS 使用更少的输入样本,同时避免了此类技术在透明度和其他复杂场景元素方面面临的算法困难。
实时光线跟踪加速
图灵引入了实时光线跟踪,使单个 GPU 能够渲染具有视觉真实感的 3D 游戏和复杂的专业模型,具有物理上精确的阴影、反射和折射。图灵的新 RT 核心加速射线追踪,并被系统和接口所利用,如 NVIDIA 的 RTX 射线追踪技术,以及微软 DXR , NVIDIA OptiX 等 API ™,以及 Vulkan 光线跟踪,提供实时光线跟踪体验。
新的着色技术
网格着色
网格着色改进了 NVIDIA 的几何处理架构,为图形管道的顶点、细分和几何体着色阶段提供了一个新的着色器模型,支持更灵活和高效的几何体计算方法。这种更灵活的模型,例如,通过将对象列表处理的关键性能瓶颈从 CPU 移开,并转移到高度并行的 GPU 网格着色程序中,使每个场景支持数量级更多的对象成为可能。网格着色还支持先进的几何合成和对象 LOD 管理的新算法。
可变速率着色( VRS )
VRS 允许开发人员动态控制着色速率,每 16 像素着色一次,或者每像素 8 次着色。应用程序使用着色速率曲面和每基本体(三角形)值的组合指定着色速率。 VRS 是一个非常强大的工具,它允许开发者更有效地进行阴影处理,减少了在全分辨率阴影处理不会给任何可见图像质量带来好处的屏幕区域的工作,从而提高了帧率。已经确定了几种基于 VRS 的算法,这些算法可以根据内容细节级别(内容自适应着色)、内容运动速率(运动自适应着色)以及 VR 应用、镜头分辨率和眼睛位置( Foveated Rendering )来改变着色工作。
纹理空间着色
使用纹理空间着色,对象在保存到内存的专用坐标空间(纹理空间)中着色,像素着色器从该空间采样,而不是直接计算结果。通过在内存中缓存着色结果并重用/重新采样的能力,开发人员可以消除重复的着色工作或使用不同的采样方法来提高质量。
多视图渲染( MVR )
MVR 有力地扩展了 Pascal 的单声道立体声( SP )。虽然 SPS 允许渲染除 X 偏移外的两个常见视图,但 MVR 允许在一个过程中渲染多个视图,即使这些视图基于完全不同的原点位置或视图方向。访问是通过一个简单的编程模型来实现的,在这个模型中,编译器自动将视图无关的代码分解出来,同时确定视图相关的属性以实现最佳执行。
图形的深度学习功能
NVIDIA NGX 公司™ 是 NVIDIA RTX 技术的新的基于深度学习的神经图形框架。 NVIDIA NGX 利用深度神经网络( DNNs )和一组“神经服务”来执行基于人工智能的功能,这些功能可以加速和增强图形、渲染和其他客户端应用程序。 NGX 将图灵张量核心用于基于深度学习的操作,并加速向最终用户直接交付 NVIDIA 深度学习研究。功能包括超高质量的 NGX DLSS (深度学习超级采样)、 AI 修复内容感知图像替换、 AI Slow-Mo 非常高质量和平滑的慢动作,以及 AI-Super-Rez 智能分辨率调整。
推理的深度学习特性
图灵 GPUs 提供了卓越的推理性能。图灵张量核心,加上 TensorRT ( NVIDIA 的运行时推断框架)、 CUDA 和 cuDNN 库的不断改进,使图灵 GPUs 能够为推理应用程序提供出色的性能。图灵张量核还增加了对快速 INT8 矩阵运算的支持,以最大程度地提高推理吞吐量,同时减少精确度损失。新的低精度 INT4 矩阵运算现在有可能与图灵张量核心,并将使研究和开发到亚 8 位神经网络。
GDDR6 高性能内存子系统
图灵是第一个支持 GDDR6 内存的 GPU 体系结构。 GDDR6 是高带宽 GDDRAM 内存设计的下一个重大进步。图灵 GPUs 中的 GDDR6 内存接口电路在速度、功率效率和噪音降低方面进行了彻底的重新设计,与 Pascal GPUs 中使用的 GDDR5X 内存相比,实现了 14 Gbps 的传输速率,功率效率提高了 20% 。
第二代 NVIDIA NVLink
图灵 TU102 和 TU104 GPUs 合并了 NVIDIA 的 NVLink ™ 高速互连,提供可靠、高带宽和低延迟连接对图灵 GPUs 。 NVLink 具有高达 100GB / s 的双向带宽,使定制的工作负载能够在两个 GPUs 之间高效地分割并共享内存容量。对于游戏工作负载, NVLink 增加的带宽和专用的 inter- GPU 通道为 SLI 提供了新的可能性,例如新的模式或更高分辨率的显示配置。对于大型内存工作负载,包括专业的光线跟踪应用程序,场景数据可以在 GPUs 的帧缓冲区中分割,提供高达 96 GB 的共享帧缓冲区内存(两个 48 GB Quadro RTX 8000 GPUs ),内存请求由硬件根据内存分配的位置自动路由到正确的 GPU 。
USB-C 和 VirtualLink
图灵 GPUs 包括对 USB Type-C 的硬件支持™ 和 VirtualLink ™. (为了准备新出现的 VirtualLink 标准,图灵 GPUs 已经根据 VirtualLink 高级概述 实现了硬件支持。要了解有关 VirtualLink 的更多信息,请参阅 http://www.virtuallink.org )VirtualLink 是一种新的开放式行业标准,旨在通过单个 USB-C 连接器满足下一代 VR 耳机的功率、显示和带宽需求。除了减轻目前 VR 耳机的安装麻烦之外, VirtualLink 还将把 VR 应用到更多的设备中。
深度图灵体系结构
图灵 TU102 GPU 是图灵 GPU 线路中性能最高的 GPU ,也是本节的重点。 TU104 和 TU106 GPUs 采用与 TU102 相同的基本架构,针对不同的使用模式和市场细分,进行了不同程度的缩减。 TU104 和 TU106 芯片架构和目标用途/市场的详细信息见 图灵体系结构白皮书 。
图灵 TU102 GPU
TU102 GPU 包括 6 个图形处理群集( GPC )、 36 个纹理处理群集( TPC )和 72 个流式多处理器( SMs )。(参见 图 2 了解带有 72 个 SM 单元的 TU102 full GPU 的图示。)每个 GPC 包括一个专用光栅引擎和六个 TPC ,每个 TPC 包括两个 SMs 。每个 SM 包含 64 个 CUDA 内核、 8 个张量内核、一个 256 KB 的寄存器文件、 4 个纹理单元和 96 KB 的 L1 /共享内存,这些内存可根据计算或图形工作负载配置为各种容量。
光线跟踪加速由每个 SM 内的新 RT 核心处理引擎执行( RT 核心和光线跟踪功能在完整的 NVIDIA 图灵体系结构白皮书 中有更深入的讨论)。
TU102 GPU 的全面实施包括以下内容:
4608 CUDA 颜色
72 个 RT 芯
576 张量核
288 个纹理单位
12 个 32 位 GDDR6 内存控制器(总计 384 位)。
每个内存控制器都有 8 个 ROP 单元和 512 KB 的二级缓存。完整的 TU102 表 1 由 96 个 ROP 单元和 6144 KB 的二级缓存组成。参见 GPU 表 1 中的图灵 TU102 GPU 比较了 Pascal GP102 的 GPU 特性和图灵 TU102 。
图 2 . 图灵 TU102 全 GPU 带 72 个 SM 单元
注: TU102 GPU 还具有 144 个 FP64 单元(每平方米两个),这在本图中没有描述。 FP64 TFLOP 速率是 FP32 操作的 TFLOP 速率的 1 / 32 。包含少量的 FP64 硬件单元,以确保任何使用 FP64 代码的程序都能正确运行。
Table 1. Comparison of NVIDIA Pascal GP102 and Turing TU102Note: ✱ Peak TFLOPS, TIPS, and TOPS rates are based on GPU Boost Clock.+ Power figure represents Graphics Card TDP only. Note that use of the VirtualLink™/USB Type-C™ connector requires up to an additional 35 W of power that is not represented in this power figure. |
||||
GPU Features |
GTX 1080Ti |
RTX 2080 Ti |
Quadro 6000 |
Quadro RTX 6000 |
Architecture |
Pascal |
Turing |
Pascal |
Turing |
GPCs |
6 |
6 |
6 |
6 |
TPCs |
28 |
34 |
30 |
36 |
SMs |
28 |
68 |
30 |
72 |
CUDA Cores / SM |
128 |
64 |
128 |
64 |
CUDA Cores / GPU |
3584 |
4352 |
3840 |
4608 |
Tensor Cores / SM |
NA |
8 |
NA |
8 |
Tensor Cores / GPU |
NA |
544 |
NA |
576 |
RT Cores |
NA |
68 |
NA |
72 |
GPU Base Clock MHz (Reference / Founders Edition) |
1480 / 1480 |
1350 / 1350 |
1506 |
1455 |
GPU Boost Clock MHz (Reference / Founders Edition) |
1582 / 1582 |
1545 / 1635 |
1645 |
1770 |
RTX-OPS (Tera-OPS)
(Reference / Founders Edition) |
11.3 / 11.3 |
76 / 78 |
NA |
84 |
Rays Cast (Giga Rays/sec) (Reference / Founders Edition) |
1.1 / 1.1 |
10 / 10 |
NA |
10 |
Peak FP32 TFLOPS✱
(Reference/Founders Edition) |
11.3 / 11.3 |
13.4 / 14.2 |
12.6 |
16.3 |
Peak INT32 TIPS✱
(Reference/Founders Edition) |
NA |
13.4 / 14.2 |
NA |
16.3 |
Peak FP16 TFLOPS✱
(Reference/Founders Edition) |
NA |
26.9 / 28.5 |
NA |
32.6 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate✱ (Reference/Founders Edition) |
NA |
107.6 / 113.8 |
NA |
130.5 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate✱ (Reference/Founders Edition) |
NA |
53.8 / 56.9 |
NA |
130.5 |
Peak INT8 Tensor TOPS✱ (Reference/Founders Edition) |
NA |
215.2 / 227.7 |
NA |
261.0 |
Peak INT4 Tensor TOPS✱
(Reference/Founders Edition) |
NA |
430.3 / 455.4 |
NA |
522.0 |
Frame Buffer Memory Size and Type |
11264 MB GDDR5X |
11264 MB GDDR6 |
24576 MB GDDR5X |
24576 MB GDDR6 |
Memory Interface |
352-bit |
352-bit |
384-bit |
384-bit |
Memory Clock (Data Rate) |
11 Gbps |
14 Gbps |
9 Gbps |
14 Gbps |
Memory Bandwidth (GB/sec) |
484 |
616 |
432 |
672 |
ROPs |
88 |
88 |
96 |
96 |
Texture Units |
224 |
272 |
240 |
288 |
Texel Fill-rate (Gigatexels/sec) |
354.4 / 354.4 |
420.2 / 444.7 |
395 |
510 |
L2 Cache Size |
2816 KB |
5632 KB |
3072 KB |
6144 KB |
Register File Size/SM |
256 KB |
256 KB |
256 KB |
256 KB |
Register File Size/GPU |
7168 KB |
17408 KB |
7680 KB |
18432 KB |
TDP★
(Reference/Founders Edition) |
250 / 250 W |
250 / 260 W |
250 W |
260 W |
Transistor Count |
12 Billion |
18.6 Billion |
12 Billion |
18.6 Billion |
Die Size |
471 |
754 |
471 |
754 |
Manufacturing Process |
16 nm |
12 nm FFN |
16 nm |
12 nm FFN |
随着 GPU 加速计算变得越来越流行,具有多个 GPUs 的系统正越来越多地部署在服务器、工作站和超级计算机上。 TU102 和 TU104 GPUs 包括第二代 NVIDIA 的 NVLink ™ 高速互连,最初设计为 Volta GV100 GPU ,为 SLI 和其他多 GPU 用例提供高速多 GPU 连接。 NVLink 允许每个 GPU 直接访问其他连接的 GPUs 的内存,提供更快的 GPU – GPU 通信,并允许组合来自多个 GPUs 的内存以支持更大的数据集和更快的内存计算。
TU102 包括两个 NVLink x8 链路,每个链路在每个方向上的传输速率高达 25gb / s ,双向总带宽为 100gb / s 。
图 3 . NVIDIA Turing Tu102 GPU
图灵流式多处理器( SM )体系结构
图灵架构的特点是一个新的 SM 设计,它包含了我们在 Volta GV100 SM 架构中引入的许多功能。每个 TPC 包括两个 SMs ,每个 SM 共有 64 个 FP32 核和 64 个 INT32 核。相比之下, Pascal GP10x GPUs 每个 TPC 有一个 SM ,每 SM 有 128 个 FP32 核。图灵 SM 支持 FP32 和 INT32 操作的并发执行(更多细节见下文),独立的线程调度类似于 voltagv100 GPU 。每个图灵 SM 还包括八个混合精度的图灵张量核心,在下面的图灵张量核 一节中有更详细的描述,还有一个 RT 核心,其功能在 图灵射线追踪技术 below . 中有描述,图灵 TU102 、 TU104 和 TU106 SM 的说明见 图 4 。
图 4 . 图灵 TU102 / TU104 / TU106 流式多处理器( SM )
图灵 SM 被划分为四个处理块,每个处理块有 16 个 FP32 核、 16 个 INT32 核、两个张量核、一个 warp 调度器和一个调度单元。每个块包括一个新的 L0 指令缓存和一个 64kb 的寄存器文件。四个处理块共享一个组合的 96kbl1 数据缓存/共享内存。传统图形工作负载将 96 KB L1 /共享内存划分为 64 KB 的专用图形着色器 RAM 和 32 KB 的纹理缓存和寄存器文件溢出区域。计算工作负载可以将 96 KB 划分为 32 KB 共享内存和 64 KB L1 缓存,或 64 KB 共享内存和 32 KB L1 缓存。
图灵实现了核心执行数据路径的重大改进。现代着色器工作负载通常将 FP 算术指令(如 FADD 或 FMAD )与更简单的指令(如用于寻址和获取数据的整数加法、用于处理结果的浮点比较或最小/最大值)混合在一起。在以前的着色器体系结构中,每当这些非 FP 数学指令之一运行时,浮点数学数据路径就处于空闲状态。在第二个并行执行单元 kzc0 上,用一个并行的 CUDA 执行一个浮点指令。
图 5 表明整数管道指令与浮点指令的混合情况各不相同,但在一些现代应用程序中,通常会看到每 100 条浮点指令增加 36 条整数管道指令。将这些指令移动到一个单独的管道中,这意味着浮点的有效吞吐量增加了 36% 。
图 5. Turing SM 中浮点与整数指令的并行执行
分析许多工作负载时,平均每 100 个浮点操作就有 36 个整数操作。
图灵还为 L1 的共享内存引入了统一的纹理缓存和架构。这种统一的设计允许一级缓存利用资源,与 Pascal 相比,每 TPC 增加 2 倍的命中带宽,并允许在共享内存分配未使用所有共享内存容量时对其进行重新配置,使其更大。图灵 L1 的大小可以达到 64kb ,再加上每个 SM 共享内存分配 32kb ,或者它可以减少到 32kb ,允许 64kb 的分配用于共享内存。图灵的二级缓存容量也有所增加。
图 6 展示了图灵 SM 新的组合 L1 数据缓存和共享内存子系统如何显著提高性能,同时简化编程并减少达到或接近峰值应用程序性能所需的调整。将一级数据缓存与共享内存相结合可以减少延迟,并提供比先前在 Pascal GPUs 中使用的一级缓存实现更高的带宽。
图 6 .新的共享内存体系结构
总的来说, SM 的变化使图灵能够在每个 CUDA 核心上实现 50% 的性能改进。 图 7 显示当前游戏应用程序的一组着色器工作负载的结果。
图 7 .在许多不同的工作负载下,图灵着色的性能比 Pascal 快
图灵张量核
图灵 GPUs 包括一个增强版的张量核心首次引入 voltagv100 GPU 。图灵张量核心设计增加了 INT8 和 INT4 精确模式,用于推断可以容忍量化的工作负载。对于需要更高精度的工作负载, FP16 也完全受支持。
在基于图灵的 GeForce 游戏 GPUs 中引入张量核,使得首次将实时深度学习引入游戏应用成为可能。图灵张量核心加速了 NVIDIA NGX 神经服务基于人工智能的特性,增强了图形、渲染和其他类型的客户端应用。 NGX 人工智能功能的例子包括深度学习超级采样( DLSS )、 AI 修复、 AI 超级 Rez 和 AI Slow-Mo 。关于 DLSS 的更多细节可以在本文后面找到。您可以在完整的 NVIDIA 图灵体系结构白皮书 中找到有关其他 NGX 功能的附加信息。
图灵张量核加速矩阵乘法是神经网络训练和推理功能的核心。图灵张量核特别擅长推理计算,在推理计算中,有用的和相关的信息可以由一个训练好的深层神经网络( DNN )基于给定的输入进行推断和传递。推理的例子包括识别 Facebook 照片中朋友的图像,识别和分类不同类型的汽车、行人和自动驾驶汽车中的道路危险,实时翻译人类语言,以及在在线零售和社交媒体系统中创建个性化的用户推荐。
TU102 GPU 包含 576 个张量核心:每个 SM 8 个, SM 内每个处理块 2 个。每个张量核心可以执行多达 64 个浮点融合乘法加法( FMA )操作,每个时钟使用 FP16 输入。一个 SM 中的八个张量核心每时钟执行 512 个 FP16 乘法和累加运算,或每个时钟总共执行 1024 次浮点运算。新的 INT8 精度模式以两倍的速率工作,即每时钟 2048 次整数运算。
图灵张量核为矩阵运算提供了显著的加速,除了新的神经图形功能外,还用于深度学习训练和推理操作。有关基本张量核心操作细节的更多信息,请参阅 NVIDIA Tesla V100 GPU 体系结构白皮书 .
新的图灵张量核为人工智能推理提供了多精度。
为数据中心应用程序优化的图灵
除了为高端游戏和专业图形带来革命性的新功能外,图灵还为下一代 Tesla ® GPUs 提供卓越的性能和能效。 NVIDIA 目前在数据中心用于推断应用程序的基于 Pascal 的 GPUs 已经比基于 CPU 的服务器提供了高达 10 倍的性能和 25 倍的能效。在图灵张量核心的支持下,下一代基于图灵的 Tesla GPUs 将在数据中心提供更高的推断性能和能源效率。基于图灵的 Tesla GPUs 优化后可在 70 瓦以下运行,这将为超大规模数据中心带来显著的效率和性能提升。
除了图灵张量核心之外,图灵 GPU 体系结构还包括一些提高数据中心应用程序性能的特性。一些关键功能包括:
增强视频引擎
与上一代 Pascal 和 Volta GPU 架构相比,图灵支持额外的视频解码格式,如 HEVC 4 : 4 : 4 ( 8 / 10 / 12 位)和 VP9 ( 10 / 12 位)。图灵中增强的视频引擎能够解码比等效的基于 Pascal 的 Tesla GPUs 多得多的并发视频流。(见 视频显示引擎 下面的 . 一节)
图灵多进程服务
图灵 GPU 体系结构继承了 Volta 体系结构中首次引入的增强型多进程服务( MPS )特性。与基于 Pascal 的 Tesla GPUs 相比,基于图灵的 Tesla 板上的 MPS 提高了小批量的推理性能,减少了启动延迟,提高了服务质量,可以处理更多的并发客户端请求。
更高的内存带宽和更大的内存大小
即将推出的基于图灵的 Tesla 板具有更大的内存容量和更高的内存带宽,而上一代基于 Pascal 的 Tesla 板针对相似的服务器段,为虚拟桌面基础设施( VDI )应用提供了更高的用户密度。
图灵存储器结构和显示特性
本节将深入探讨图灵体系结构的关键新内存层次结构和显示子系统特性。
内存子系统的性能对于应用程序加速至关重要。图灵改进了主内存、缓存和压缩架构,以增加内存带宽并减少访问延迟。改进和增强的 GPU 计算功能有助于加速游戏和许多计算密集型应用程序和算法。新的显示和视频编码/解码功能支持更高分辨率和 HDR 功能的显示器、更先进的 VR 显示器、数据中心不断增加的视频流需求、 8K 视频制作和其他视频相关应用。详细讨论了以下特点:
GDDR6 内存子系统
二级缓存和 ROPs
图灵存储器压缩
视频显示引擎
USB-C 和 VirtualLink