英特尔图形处理器第8代架构

英特尔图形处理器第8代架构

The Compute Architecture of Intel® Processor Graphics Gen8

一.概述

1. 简介

了解英特尔体系结构的软件、硬件和产品处理器图形第8代。与运行相关的架构特性,英特尔处理器图形上的计算应用程序。             

这个Gen8白皮书更新了“Intel的计算体系结构”中的大部分内容,处理器图形Gen7.5“使其能够独立运行。

英特尔的片上集成处理器图形体系结构提供卓越的实时3D渲染和媒体性能。然而,它的底层计算架构也提供了接近teraFLOPS性能的通用计算能力。构建英特尔处理器图形处理器的              整数计算能力、分层的高带宽内存层次结构和深度集成具有片上CPU和其他片上系统(SoC)设备。

它是一个模块,实现从手机到平板电脑和笔记本电脑,高端台式机和服务器。             

2. 什么是英特尔图形处理器?             

英特尔处理器图形是指提供图形、计算、媒体和英特尔许多SoC产品的显示功能。在Intel,架构师通俗地称为Intel处理器图形体系结构简单地称为“gen”,简称gen。

特定的一代             

对于第6代,英特尔处理器图形体系结构可以称为“gen6”,或者“gen7”用于第7代等品牌产品Intel HD graphics 4600、Intel Iris™ 绘图5100和Intel Iris Pro graphics 5200都是从Intel处理器graphics实例派生的gen7.5构架。

Intel HD graphics 5300、Intel Iris graphics 6100和Intel Iris Pro graphics6200是图形组件基于Intel的处理器产品的示例处理器图形gen8体系结构。本文只关注计算架构 ,英特尔处理器图形第8代的几个方面。

gen8这个词来作速记,计算架构是指那些计算组件。本文也简要介绍讨论Intel Core中Intel处理器图形gen8的实例化™ i5处理器和同样在Intel Core M处理器中用于低功耗外形。

二.SOC 架构ARCHITECTURE

本节介绍Intel图形处理器是其组件的SoC体系结构。

The Compute Architecture of Intel Processor Graphics Gen8 v1.1

1. SOC架构             

Intel Core M处理器是集成多个CPU核的复杂SoC,Intel图形处理器和其他潜在的固定功能都在一个共享的硅芯片上。构建实现多个唯一的时钟域,这些时钟域已被划分为每个CPU核心时钟域、处理器图形时钟域和环形互连时钟域。这个 SoC体系结构设计为可扩展到一系列产品,但仍然能够将SoC中各组件之间的有效布线。             

2. 环形互连             

CPU核心、缓存和英特尔处理器图形之间的片上总线是基于环的,为每个连接的“代理”提供专用本地接口的拓扑结构。这个SoC环interconnect是一个双向环,具有32字节宽的数据总线,具有请求、窥探和确认。每个片上CPU核心都被视为唯一的代理。             

类似地,Intel图形处理器被视为互连环上的唯一代理。一个系统代理也连接到环,环捆绑了DRAM内存管理单元、显示控制器和其他片外I/O控制器,如PCI Express。重要的是,与CPU核心之间和与英特尔处理器图形之间的芯片系统内存事务,是通过这种互连、系统代理和统一的DRAM内存控制器。             

3. SHARED LLC             

一些SoC产品包括一个共享的末级缓存(LLC),它也连接到双向环。在这样的soc中,每个片上的核心被分配一个缓存片,并且该缓存片是作为环上的唯一代理连接。但是,所有的切片作为一个单独的缓存,尽管是共享和分布式缓存。地址哈希方案路由数据请求分配给其地址的缓存片。此分布式SHARED LLC也与英特尔共享图形处理器。对于CPU内核和英特尔图形处理器,LLC都希望减少系统DRAM和提供更高有效带宽,减少延迟。             

4. 可选EDRAM             

一些SoC产品包括嵌入到SoC芯片中的DRAM(EDRAM)封装。例如,基于Intel图形处理器gen7.5的Intel Iris Pro 5200和基于Intel处理器图形gen8的Intel Iris Pro 6200产品捆绑128兆字节EDRAM。EDRAM在自己的时钟域中工作,最高可工作1.6GHz。这个  EDRAM有独立的读写总线,每个总线都能进行32字节/EDRAM循环。             

EDRAM支持许多应用程序,包括低延迟显示表面刷新。对于两个CPU,Intel图形处理器gen8、EDRAM的体系结构和计算体系结构,通过充当LLC,Compute数据后面的大型“victim cache缓存”来支持内存层次结构。             

首先填充LLC。从LLC缓存线Cacheline victims将泄漏到EDRAM中。如果以后对存储在EDRAM中的缓存线进行读/写操作,它们很快被重新加载到LLC中,并且读/写然后照常进行。

三.Gen8图形处理器架构

THE COMPUTE ARCHITECTURE OF INTEL PROCESSOR GRAPHICS GEN8

1. 英特尔图形处理器第8代中的关键改进            

英特尔处理器图形gen8在整个微体系结构和支持软件。它还包括几个主要的新功能和英特尔的变化图形处理器gen7.5。简而言之,这些变化包括:

· Gen8’s micro-architecture throughput for 32-bit integer computation has doubled.

· Gen8 has added native 16-bit floating-point support to the execution units.

· For some gen8-based products, the write bandwidth from GTI has doubled.

· Coherent shared virtual memory between CPU cores and Intel processor graphics gen8 has been implemented, enabling seamless sharing of pointer rich data structures.

· For many gen8-based products, 8 execution units are now instantiated per subslice. This can improve compute throughput as data port and sampler are now shared by fewer execution units. (Gen 7.5 was 10 execution units per subslice.)

· For many gen8-based products, 3 subslices are now instantiated per slice. This enables new product configurations, and instantiates more samplers per slice, and more concurrent memory interfaces to L3 and SLM. (Gen 7.5 was 2 subslices per slice.)

· Gen8 has increased the L3

2. 产品可扩展性的模块化设计             

gen8计算体系结构的设计是为了在广泛的目标范围内实现可伸缩性产品。体系结构的模块化使产品能够精确地瞄准特定的市场或产品功率包络线。体系结构从称为执行单位。执行单元被聚集到称为子片的组中。子切片更进一步成片地聚在一起。集成,执行单元、子片和片是模块化的构建,用于创建基于英特尔图形处理器的许多产品变体的块,第8代计算架构。一些示例变量如图7和图8所示。以下各节详细描述了架构组件,并整体展示了它们是如何可以组成完整的产品。

3. 执行单元(EUS)架构             

gen8计算体系结构的基本构建块通常是执行单元缩写为EU。执行单元的体系结构是同时多线程的组合(SMT)和细粒度交错多线程(IMT)。这些是计算处理器驱动多问题单指令多数据算术逻辑单元(SIMD,ALUs),流水线跨多个线程,用于高吞吐量浮点和整数计算。

细颗粒EUs的线程特性确保了执行指令的连续流,支持长时间操作的延迟,如内存分散/收集、采集卡请求或其它系统通信。

 产品架构可以微调每个EU的线程数和寄存器数,以匹配可扩展性和特定的产品设计需求。对于基于gen8的产品,每个EU线程有128个通用寄存器。每个寄存器存储32个字节,可作为SIMD访问32位数据元素的8元素向量。因此,每个gen8线程都有4kbytes的通用目的寄存器文件(GRF)。在gen8架构中,每个EU有7个线程,每个EU 28千字节的GRF。灵活的寻址模式允许寄存器一起寻址,有效地建立更宽的寄存器,甚至表示跨步矩形块数据结构。每线程体系结构状态在单独的专用体系结构中维护注册文件(ARF)。

4. 子层架构             

gen8计算体系结构中,EUs数组被实例化在一个称为subslice的组中。为了可伸缩性,图形产品架构可以选择每个子片的EUs数量。基于gen8的产品,每个子片包含8个EUs。每个子片都包含自己的本地线程分派器单元及其自己的支持指令缓存。

给这8个EUs加上7个每个线程,单个子片都有专用的硬件资源,并注册文件,总共 56个同时线程。每个子层还包括一个采集卡器单元和一个数据端口存储器管理股。与gen7.5的设计相比,gen7.5的设计中每个层有10个EUs,这个gen8设计减少了共享每个子层的采集卡和数据端口的EUs数量。从每个EU的观点来看,这有提高子片本地有效带宽的效果。

5. SLICE ARCHITECTURE

子片聚集成片。对于大多数基于gen8的产品,共有3个子片组成一片。因一个切片总共聚集了24个EUs3。除了分组子片之外,该片集成了另外的线程调度路由逻辑、一个3级缓存库、一个较小但高存储容量的共享本地内存结构,以及原子的固定功能逻辑。附加的固定功能单元支持媒体和图形功能。

6.  PRODUCT ARCHITECTURE

SoC产品架构师可以在一个系列中创建产品系列或特定的产品。通过实例化一个或多个切片。产品系列的组成可能不同,主要是切片的数量。这些片与附加的前端逻辑相结合,管理命令提交,以及支持3D、渲染和媒体管道。另外,整个gen8计算体系结构与SoC组件通过一个称为图形技术接口(GTI)的专用单元。

7.  MEMORY

1)Unified Memory Architecture

2)Shared Memory Coherency

8.  ARCHITECTURE CONFIGURATIONS, SPEEDS, AND FEEDS

下表显示了英特尔计算体系结构的理论峰值吞吐量,两个示例产品SKU的处理器图形。对于每种产品,峰值吞吐量为英特尔图形处理器Gen8,v1.116的计算体系结构              在整个体系结构中聚合。基于其他产品的理论峰值吞吐量,在gen8体系结构上,遵循与英特尔Iris Pro系列类似的模式。

四.EXAMPLE COMPUTE APPLICATIONS

下面的图片提供了几种计算应用程序和英特尔处理器图形加速的算法。

 

 

 

 

posted @ 2020-06-25 11:04  吴建明wujianming  阅读(1482)  评论(0编辑  收藏  举报