[ZZ] Maxwell 架构

  http://digi.163.com/14/0218/23/9LDCTFON00162DSP.html

 

 

【IT168 评测】随着一句“娘娘,封神啦(宝鸡口音)”,中国的观众迅速认识到了两个极其出彩的相声演员。如果说关键词是引发关注的最大因素,那么提到“GeForce”,各位想到的又是什么?

步步为营 NVIDIA发布Maxwell架构产品!

相信不少读者第一次真正认识到NVIDIA(以下简称NV)这个公司还是从一款叫GeForce 256的显卡开始,当年逆天的性能让不少DIY玩家彻底跪倒在NV的的“石榴裙”之下不愿爬起。虽说这么多年过去了,NV的产品越来越多,但是GeForce 256的作为第一款GeForce产品,不仅为NV,也为业界带来了一场“绿色”革命!

步步为营 NVIDIA发布Maxwell架构产品!

     1999年GeForce 256发布至今已经15年了,15年的沉淀又带来了什么,GeForce系列的茁壮发展,架构的不断改进和革新,一切都恍如昨日。而今天,一款从Fermi就被期待的架构,终于揭开了神秘的面纱,那就是今天的主角——全新Maxwell架构的产品GTX 750以及GTX 750 Ti!

步步为营 NVIDIA发布Maxwell架构产品!

    至于为什么这么多人都在期待Maxwell架构的产品,下面的架构分析和回顾会为各位一一揭晓。

Fermi架构解析回顾

1、SP、SM

从高层次上看,Fermi和GT200结构形似,并无太大不同,但往深处看就会发现绝大部分都已经进化。最核心的流处理器(Streaming Processor/SP)现在不但数量大增,还有了个新名字CUDA核心(CUDA Core),由此即可看出NVIDIA的转型之意,不过我们暂时还是继续沿用流处理器的说法。

温故而知新 Fermi/Kepler架构解析回顾!

所有流处理器现在都符合IEEE 754-2008浮点算法(Cypress也是如此)和完整的32位整数算法,而后者在过去只是模拟的,事实上仅能计算24-bit整数乘法;同时引入的还有积和熔加运算(Fused Multiply-Add/FMA),每循环操作数单精度512个、双精度256个。所有一切都符合业界标准,计算结果不会产生意外偏差。

双精度浮点(FP64)性能大大提升,峰值执行率可以达到单精度浮点(FP32)的1/2,而过去只有1/8,AMD现在也不过1/5,比如Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。由于最终核心频率未定,所以暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。

G80/GT200都是8个流处理器构成一组SM(Streaming Multiprocessor),Fermi增加到了32个,最多16组,少于GT200的30组,但流处理器总量从240个增至512个,是G80的整整四倍。除了流处理器,每组SM还有4个特殊功能单元(Special Function UnitSFU),用于执行抽象数学和插值计算,G80/GT200均为2个。同时MUL已被删掉,所以不会再有单/双指令执行计算率了。

至于SM之上的纹理处理器群(Texture Processor Cluster/TPC),NVIDIA暂时没有披露具体组成方式,而且ROP单元、纹理/像素填充率等其它图形指标也未公布。

2、缓存

GT200的每组SM都有16KB共享内存,由其中8个SP使用。注意它们不是缓存(cache),而是软件管理的内存(memory),可以写入、读取数据。为了满足应用程序和通用计算的需要,Fermi引入了真正的缓存,每组SM拥有64KB可配置内存(合计1MB),可分成16KB共享内存加48KB一级缓存,或者48KB共享内存加16KB一级缓存,可灵活满足不同类型程序的需要。

温故而知新 Fermi/Kepler架构解析回顾!

GT200的每组TPC还有一个一级纹理缓存,不过当GPU出于计算模式的时候就没什么用了,故而Fermi并未在这方面进行增强。整个芯片拥有一个容量768KB的共享二级缓存,执行原子内存操作(AMO)的时候比GT200快5-20倍。

3、效率

CPU和GPU执行的都是被称作线程的指令流。高端CPU现在每次最多只能执行8个线程(Intel Core i7),而GPU的并行计算能力就强大多了:G80 12288个、GT200 30720个、Fermi 24576个。

为什么Fermi还不如GT200多?因为NVIDIA发现计算的瓶颈在于共享内存大小,而不是线程数,所以前者从16KB翻两番达到64KB,后者则减少了20%,不过依然是G80的两倍,而且每32个线程构成一组“Warp”。

在G80和GT200上,每个时钟周期只有一半Warp被送至SM,换言之SM需要两个循环才能完整执行32个线程;同时SM分配逻辑和执行硬件紧密联系在一起,向SFU发送线程的时候整个SM都必须等待这些线程执行完毕,严重影响整体效率。

Fermi解决了这个问题,在每个SM前端都有两个Warp调度器和两个独立分配单元,并且和SM其它部分完全独立,均可在一个时钟循环里选择发送一半Warp,而且这些线程可以来自不同的Warp。分配单元和执行硬件之间有一个完整的交叉开关(Crossbar),每个单元都可以像SM内的任何单元分配线程(不过存在一些限制)。

温故而知新 Fermi/Kepler架构解析回顾!

这种线程架构也不是没有缺点,就是要求Warp的每个线程都必须同时执行同样的指令,否则会有部分单元空闲。每组SM每个循环内可以执行的不同操作数:FP32 32个、FP64 16个、INT 32个、SFU 4个、LD/ST 16个。

4、并行内核(Parallel Kernel)

在GPU编程术语中,内核是运行在GPU硬件上的一个功能或小程序。G80/GT200整个芯片每次只能执行一个内核,容易造成SM单元闲置。这在图形运算中不是问题,通用计算上就不行了。Fermi的全局分配逻辑则可以向整个系统发送多个并行内核,不然SP数量翻一番还多,更容易浪费。

应用程序在GPU和CUDA模式之间的切换时间也快得多了,NVIDIA宣称是GT200的10倍。外部连接亦有改进,Fermi现在支持和CPU之间的并行传输,而之前都是串行的。

5、ECC支持

AMD Cypress可以检测内存总线上的错误,却不能修正,而NVIDIA Fermi的寄存器文件、一级缓存、二级缓存、DRAM全部完整支持ECC错误校验,这同样是为Tesla准备的,之前我们也提到过。很多客户此前就是因为Tesla没有ECC才拒绝采纳,因为他们的安装量非常庞大,必须有ECC。

6、统一64-bit内存寻址

以前的架构里多种不同载入指令,取决于内存类型:本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针造成了麻烦,程序员不得不费劲清理。Fermi统一了寻址空间,简化为一种指令,内存地址取决于存储位置:最低位是本地,然后是共享,剩下的是全局。这种统一寻址空间是支持C++的必需前提。

温故而知新 Fermi/Kepler架构解析回顾!

GT80/GT200的寻址空间都是32-bit的,最多搭配4GB GDDR3显存,而Fermi一举支持64-bit寻址,即使实际寻址只有40-bit,支持显存容量最多也可达惊人的1TB,目前实际配置最多6GB GDDR5——仍是Tesla。

7、新的指令集架构(ISA)

下边对开发人员来说是非常酷的:NVIDIA宣布了一个名为“Nexus”的插件,可以在Visual Studio里执行CUDA代码的硬件调试,相当于把GPU当成CPU看待,难度大大降低。Fermi的指令集架构大大扩充,支持DX11和OpenCL义不容辞,C++前边也已经说过,现在又多了Visual Studio,当然还有C、Fortran、OpenGL 3.1/3.2。

Kepler架构解析回顾

Kepler GK110 性能卓越,效率极高  

Kepler GK110 由 71 亿个晶体管组成,不仅速度最快,而且还是有史以来架构最复杂的微处理器。GK110 新加了许多注重计算性能创新功能,目的是要成为英伟达 Tesla和HPC市场上的并行处理动力站。 

Kepler GK110 会提供超过每秒 1 万亿次双精度浮点计算的吞吐量,DGEMM 效率大于80%,而之前的 Fermi 架构的效率是 60 65%。除了大大提高的性能之外,Kepler 架构在电源效率方面有 3 次巨大的飞跃,使 Fermi 的性能/功率比提高了 3 倍。  

温故而知新 Fermi/Kepler架构解析回顾!

Kepler GK110 的以下新功能提高 GPU 的利用率,简化了并行程序设计,并有助于 GPU 在各种计算环境中部署,无论是从个人工作站还是到超级计算机:  

Dynamic Parallelism

能够让 GPU 在无需 CPU 介入的情况下,通过专用加速硬件路径为自己创造新的工作,对结果同步,并控制这项工作的调度。这种灵活性是为了适应程序执行过程中并行的数量和形式,编程人员可以处理更多的各种并行工作,更有效的将 GPU 用为计算用途。此功能允许结构较简单,一但较复杂的任务方便有效地运行,能使较大部分的应用程序在整个 GPU 上运行。此外,程序能够更容易的创建,CPU 能为其他任务释放。 

Hyper-Q

Hyper - Q 允许多个 CPU 核同时在单一 GPU 上启动工作,从而大大提高了GPU 的利用率并削减了 CPU 空闲时间。Hyper Q 增加了主机和 Kepler GK110 GPU 之间的连接总数(工作队列),允许 32 个并发、硬件管理的连接(与 Fermi 相比,Fermi 只允许单个连接)。Hyper - Q 是一种灵活的解决方案,允许来自多个 CUDA 流、多个消息传递接口(MPI)进程,甚至是进程内多个线程的单独连接。以前遇到跨任务虚假串行化的应用程序,限制了 GPU 的利用率,而现在无需改变任何现有代码性能就能大幅度提升。 

温故而知新 Fermi/Kepler架构解析回顾!

Grid Management Unit

使 Dynamic Parallelism 能够使用先进、灵活的 GRID 管理和调度控制系统。新 GK110 Grid Management Unit (GMU) 管理并按优先顺序在 GPU上执行的 Grid。GMU 可以暂停新 GRID 和等待队列的调度,并能中止 GRID,直到其能够执行时为止,这为 Dynamic Parallelism 这样的强大运行提供了灵活性。GMU 确保CPU 和 GPU 产生的工作负载得到妥善的管理和调度。

NVIDIA GPUDirect

能够使单个计算机内的 GPU 或位于网络内不同服务器内的 GPU 直接交换数据,无需进入 CPU 系统内存。GPUDirect 中的 RDMA 功能允许第三方设备,例如 SSD、NIC、和 IB 适配器,直接访问相同系统内多个 GPU 上的内存,大大降低 MPI 从 GPU 内存发送/接收信息的延迟。还降低了系统内存带宽的要求并释放其他 CUDA 任务使用的 GPU DMA 引擎。Kepler GK110 还支持其他的GPUDirect 功能,包括 Peer to Peer 和 GPUDirect for Video。 

Kepler 架构概述

Kepler GK110 专为英伟达 Tesla打造,其目标是成为世界上并行计算性能最高的微处理器。GK110 不仅大大超过由 Fermi 提供的原始计算能力,而且非常节能,显著减少电力消耗,同时产生的热量更少。 

完整 Kepler GK110 实施包括 15 SMX 单元和六个 64 位内存控制器。不同的产品将使用GK110 不同的配置。例如,某些产品可能部署 13 或 14 个 SMX。在下面进一步讨论的该架构的主要功能,包括: 

新 SMX 处理器架构

增强的内存子系统,在每个层次提供额外的缓存能力,更多的带宽,且完全进行了重新设计,DRAM I/O 实施的速度大大加快。 

贯穿整个设计的硬件支持使其具有新的编程模型功能 

Kepler GK110 支持新 CUDA Compute Capability 3.5。

Kepler 架构的一个主要设计目标是提高电源效率。设计 Kepler 时,英伟达工程师应用从 Fermi中积累的经验,以更好地优化 Kepler 、实现高效运行。台积电的 28nm 制造工艺在降低功耗方面起着重要的作用,但许多 GPU 架构需要修改,以进一步降低功耗,同时保持出色的性能。 

温故而知新 Fermi/Kepler架构解析回顾!

Kepler 每一个硬件设备都经过设计和擦洗,以提供卓越的性能/功率比。出色性能/功率比的最佳案例是 Kepler GK110 新流式多处理器 (SMX) 中的设计,与最近 Kepler GK104 引入的 SMX 单元的许多方面类似,但计算算法包括更多双精度单位。  

流式多处理器 (SMX) 架构 

Kepler GK110 的新 SMX 引入几个架构创新,使其不仅成为有史以来最强大的多处理器,而且更具编程性,更节能。 SMX: 192 个单精度 CUDA 核、64 个双精度单元、32 个特殊功能单元 (SFU) 和 32 个加载/存储单元 (LD/ST)。  

SMX 处理核架构

每个 Kepler GK110 SMX 单元具有 192 单精度CUDA 核,每个核完全由 浮点和整数算术逻辑单元组成。Kepler 完全保留 Fermi 引入的 IEEE 754-2008 标准的单精度和双精度算术,包括积和熔加 (FMA) 运算。 

Kepler GK110 SMX 的设计目标之一是大大提高 GPU 的双精度性能,因为双精度算术是许多HPC 应用的核心。Kepler GK110 的 SMX 还保留了特殊功能单元 (SFU) 以达到和上一代 GPU 类似的快速超越运算,所提供的 SFU 数量是 Fermi GF110 SM 的 8 倍。 

与 GK104 SMX 单元类似,GK110 SMX 单元内的核使用主 GPU 频率而不是 2 倍的着色频率。2x 着色频率在 G80 Tesla 架构的 GPU 中引入,并用于之后所有的 Tesla 和 Fermi 架构的GPU。在更高时钟频率上运行执行单元使芯片使用较少量的执行单元达到特定目标的吞吐量,这实质上是一个面积优化,但速度更快的内核的时钟逻辑更耗电。对于 Kepler,我们的首要任务是的性能/功率比。虽然我们做了很多面积和功耗方面的优化,但是我们更倾向优化功耗,甚至以增加面积成本为代价使大量处理核在能耗少、低 GPU 频率情况下运行。 

温故而知新 Fermi/Kepler架构解析回顾!

Quad Warp Scheduler

SMX 以 32 个并行线程为一组的形式调度进程,这 32 个并行线程叫做 Warp。而每个 SMX 中拥有四组 Warp Scheduler 和八组 Instruction Dispatch 单元,允许四个 Warp 同时发出执行。Kepler 的 Quad Warp Scheduler 选择四个 Warp,在每个循环中可以指派每 Warp 2 个独立的指令。与 Fermi 不同,Fermi 不允许双精度指令和部分其他指令配对,而 Kepler GK110 允许双精度指令和其他特定没有注册文件读取的指令配对 例如加载/存储指令、纹理指令以及一些整数型指令。 

每个 Kepler SMX 包含 4 组 Warp Scheduler,每组 Warp Scheduler 包含两组 Instruction Dispatch 单元。单个 Warp Scheduler 单元如上所示。其中包括: 

a) 记录长延迟操作(纹理和加载)的寄存器 

b) Warp 内调度决定(例如在合格的候选 Warp 中挑选出最佳 Warp 运行) 

c) 线程块级调度(例如,GigaThread 引擎) 

然而,Fermi 的 scheduler 还包含复杂的硬件以防止数据在其本身数学数据路径中的弊端。多端口寄存器记录板会纪录任何没有有效数据的寄存器,依赖检查块针对记录板分析多个完全解码的 Warp指令中寄存器的使用情况过,确定哪个有资格发出。 

对于 Kepler,我们认识到这一信息是确定性的(数学管道延迟是不变量),因此,编译器可以提前确定指令何时准备发出,并在指令中提供此信息。这样一来,我们就可以用硬件块替换几个复杂、耗电的块,其中硬件块提取出之前确定的延迟信息并将其用于在 Warp 间调度阶段屏蔽Warp,使其失去资格。  

新 ISA 编码:每个线程 255 个寄存器 

可由线程访问的寄存器的数量在 GK110 中已经翻了两番,允许线程最多访问 255 个寄存器。由于增加了每个线程可用的寄存器数量,Fermi 中承受很大寄存器压力或泄露行为的代码的速度能大大的提高。典型的例子是在 QUDA 库中使用 CUDA 执行格点 QCD(量子色动力学)计算。基于 QUDA fp64 的算法由于能够让每个线程使用更多寄存器并减少的本地内存泄漏,所以其性能提高了 5.3 倍。 

Shuffle 指令 

为了进一步提高性能,Kepler 采用 Shuffle 指令,它允许线程在 Warp 中共享数据。此前,Warp 内线程之间的数据共享需要存储和加载操作以通过共享内存传递数据。使用 Shuffle 指令,Warp 可以读取来自Warp 内其他线程中任意排列的值。Shuffle 支持任意索引引用(即任何线程读取任何其他线程)。有用的 Shuffle 子集包括下一线程(由固定量弥补抵消)和 Warp 中线程间 XOR “蝴蝶”式排列,也称为 CUDA 性。 

Shuffle 性能优于共享内存,因此存储和加载操作能够一步完成。Shuffle 也可以减少每个线程块所需共享内存的数量,因为数据在 Warp 级交换也不需要放置在共享内存中。在 FFT 的情况下,需要共享一个 Warp 内的数据,通过使用 Shuffle 获得 6%的性能增益。 

纹理改进 

GPU 的专用硬件纹理单元对于需要取样或过滤图像数据的计算机程序来说是宝贵的资源。Kepler中的纹理吞吐量与 Fermi 相比有明显提高,每个 SMX 单元包含 16 纹理过滤单元,对比 FermiGF110 SM 提高了 4 倍。 

此外,Kepler 改变了管理纹理状态的方法。在 Fermi 时代,为让 GPU 引用纹理,必须在固定大小绑定表中分配“槽”才能启动 Grid。表中槽数量最终限制程序一次可以读取多少个独特的纹理。最终,在 Fermi 中限制程序仅可以同时访问 128 纹理。 

温故而知新 Fermi/Kepler架构解析回顾!

Kepler 中有无绑定纹理,不需要额外步骤:纹理状态已保存为内存中的对象,硬件按需获取这些状态对象,绑定表过时。这有效地消除了计算程序引用独特纹理数量的任何限制。相反,程序可以在任何时间映射纹理和通纹理处理周围,因为他们将任何其他指针 

Kepler 内存子系统 L1、L2、ECC 

Kepler 的内存层次结构与 Fermi 类似。Kepler 架构支持统一内存加载和存储的请求路径,每个SMX 多处理器有一个 L1 缓存。Kepler GK110 还使编译器指示为只读数据增设一个新的缓存,如下所述。 

Kepler GK110 设计的初衷就是利用卓越的电源效率达到最大化计算性能和吞吐量。该架构有很多创新,如 SMX、Dynamic Parallelism 和 Hyper Q 使混合计算大大简化和加快了编程,适用于更广泛的应用。Kepler GK110 GPU 将用于许多系统,从工作站到超级计算机,解决 HPC 中最严峻的挑战。 

回顾了前面两代架构之后,我们现在就来看一下Maxwell带来的改变。

效能更高冗余少 全新Maxwell架构解析!
NVIDIA全新的RM

其实,Maxwell并没有全面革新的技术改进,而是在之前Fermi和Kepler的基础上做了很多的改进而得来的,所以,如果看到全架构图,你会发现有改变,但不是翻天覆地的,因为不需要这样的革新,就能做到性能的进步,这就是NVIDIA的力量!

效能更高冗余少 全新Maxwell架构解析!
GM107架构图

 Maxwell在流式多处理器方面采用了一种全新设计,可大幅提高每瓦特性能和每单位面积的性能。虽然KeplerSMX设计在这一代产品中已经相当高效,但是随着它的发展,NVIDIA的GPU架构师显然找到了让架构效率再一次重大飞跃的方法。

MaxwellSM设计实现证明了这一点,控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多增强之处让Maxwell SM(亦称“SMM”)能够在效率上远超Kepler SMX。全新的Maxwell SM架构能够在GM107中把SM的数量增至五个(GK107中仅有两个),而芯片面积仅增加25%。

效能更高冗余少 全新Maxwell架构解析!
Maxwell SM架构图

GM 107 GPU包含一个GPC、五个Maxwell流式多处理器(SMM)以及两个64位显存控制器(共128位)。这就是这一芯片的完整实现形式,每组SMM单元又由4个小单元组成,每组32个CUDA核心,TMU单元又降低到8个,位宽维持128bit,因此CUDA核心总数为640个,纹理单元40个,ROP单元为16个,与GeForce GTX 750Ti中的芯片配置相同。

通过对比GK107和GM107 SM总数的相关指标可发现,GM107有五个SM,而前者只有两个。GM107的峰值纹理性能比前者高25%,CUDA核心数量多1.7倍,着色器性能大约高2.3倍。

效能更高冗余少 全新Maxwell架构解析!
全新的G-SYNC同步技术

效能更高冗余少 全新Maxwell架构解析!
全新的G-SYNC同步技术核心重点

     G-SYNC的出现让这种情况彻底改观,本质上说G-SYNC可以从根源上杜绝撕裂和卡顿,因为G-SYNC是在显示器中加入一个芯片,让显示器听从显卡的命令确定实时的刷新频率。简而言之就是显卡渲染出一帧,显示器就刷新一帧。这样做的好处是无论场景渲染变化如何大,显卡帧数如何波动,只要保持在一定的水平之上,我们看到的都是连贯平滑的图像。

效能更高冗余少 全新Maxwell架构解析!
NVIDIA显卡技术全览

本次的首发我们收到了公版卡以及其他厂商送来的非公版显卡,首先,还是带大家一起来看下公版卡的情况!

Maxwell架构GTX750Ti规格解析!
GTX750系列的定位

Maxwell架构GTX750Ti规格解析!

Maxwell架构GTX750Ti规格解析!

Maxwell架构GTX750/GTX750Ti规格解析!
GTX 750 Ti

NVIDIA GTX750Ti核心代号GM107-400,采用最新的Maxwell架构,拥有640个CUDA处理器,功耗仅为60W,显卡采用P2010公版PCB,配备了5CM的风扇及全铝散热器。

Maxwell架构GTX750/GTX750Ti规格解析!

Maxwell架构GTX750/GTX750Ti规格解析!

GTX750Ti配备了2GB/128Bit GDDR5显存颗粒,主频为1020MHz,支持GPU Boost 2.0技术,可以根据实时功耗与温度智能超频,显存频率为5500MHz。

Maxwell架构GTX750/GTX750Ti规格解析!

输出接口则是配备了双DVI+mini HDMI的组合,完全可以满足主流用户的需求。

除了原厂卡之外,作为AIC厂商也纷纷在第一时间推出了相应的产品,其中包括了微星、索泰这样的大厂!

首发厂商产品展示:微星、索泰等
微星

首发厂商产品展示:微星、索泰等
微星

首发厂商产品展示:微星、索泰等
影驰

首发厂商产品展示:微星、索泰等
影驰

首发厂商产品展示:微星、索泰等
影驰

首发厂商产品展示:微星、索泰等
七彩虹

首发厂商产品展示:微星、索泰等
七彩虹

介绍完各款显卡,就让我们来实战,看下R9 290X显卡的表现如何!首先,还是介绍一下本次测试的测试平台。本次此时我们选择了常规的测试平台,各方面信息请看下表:

It168 显卡测试平台信息
硬件平台信息
CPU Intel Core i7 4770K 4C8T OC=4.2GHz
主板 MSI Z87 XPOWER(Z87芯片组)
内存 Kingston DDR3-1600 4GB*2
显卡

HD7770 1000/4500
GTX650Ti 928/5400
R7 260X 1100/6500
HD7850 860/4800
GTX650Ti BOOST 980/6008
GTX660 980/6008
HD7870 1000/4800
 R9 270X 1050/5600
HD7950 800/5000
GTX660Ti 915/6008
GTX760 980/6008
GTX750 1020/6008

GTX750Ti 1020/6008

硬盘 Kingston V300 240GB
电源 Antec 1000W
软件平台信息
系统软件 Windows 7 64bit with sp1
NVIDIA 334.69 Beta
AMD Catalyst 14.1 beta
测试软件

3DMark
3DMark11
GPU-Z 0.7.3
Unigine Valley
MSI Afterburner
《古墓丽影9》
《孤岛危机3》
《孤岛惊魂3》
《战地3》
《失落星球2》
《狙击精英2》
《地铁 2033》
《异形VS铁血战士》
《光荣使命》

测试过程主要是以游戏实测为主,另外采用了几个比较常用的软件,3DMark,CPU-Z,也包括了超频工作可能用到的MSI Afterburner等软件。

测试平台介绍及测试方法说明

测试平台介绍及测试方法说明

 

测试说明

测试项目方面,我们加入了不少近期推出的DX11测试软件,例如3DMARK、Heaven 4.0以及Valley 1.0。而游戏方面若游戏有自带或者第三方Benchamark软件则使用,若没有的则使用FRAPS监查帧数变化最平均值,务求尽量获得最准确的数据;由于测试对象为旗舰级显卡,我们直接采用1920*1200高分辨率进行性能测试,所以部分要求强度相对较低的游戏,开启4xAA或者8xAA全屏抗锯齿的方式进行测试。

vga.it168.com
帧数与游戏流畅度的关系
< 30 FPS 非常有限的流畅度
30-40 FPS 平均值刚好达标的流畅度
40-60 FPS 较好的流畅度
> 60 FPS 最佳的流畅度

关于FPS:

衡量一块显卡的性能我们通常都会用到FPS这个单位,帧数这个数字越大代表着显卡的每秒渲染能力越强,数值越高代表着用户在游戏中将获得体验效果越流畅。

通常一个游戏的FPS数值是通过测试数值求平均值获得,这样的测试通常可以展现真实游戏中场景与体验的一个预先录制片段。这个录制的片段将会被应用在每款测试的显卡上,测试的前提是每款显卡都采用相同的画质设置,这样才能保证获得客观真实的测试结果。

*假如一款显卡在测试中平均帧数低于30FPS,那就意味着无法顺畅的玩该款游戏。 *达到大约30~40FPS左右,我们将可以较为流畅的运行游戏,当然也会有片刻停顿的状况。总的来说,还是能够获得较好的游戏享受。在这个分辨率下获得匹配的最佳分辨率。 *当一款显卡的平均帧数可以达到或者超越60FPS,那就是说我们可以放心地享受游戏带来的快感,并且打开所有可以打开的画质设置。 *超越100FPS的显卡?或许这是一款怪兽级的显卡有或者是在一款相当老的游戏才会遇到的情况。

既然针对平台不同,测试项目自然也相去甚远。三大平台除了PC追求极致性能外,笔记本和平板都受限于电池和移动因素,性能不是很高,因此之前的3Dmark11虽然有三档可选,依然不能准确衡量移动设备的真实性能。

独立显卡基准性能:3DMark

而这次Futuremark为移动平台量身定做了专有测试方案,新一代3DMark三个场景的画面精细程度以及对配置的要求可谓天差地别。Fire Strike、Cloud Gate、Ice Storm三大场景,他们分别对应当前最热门的三大类型的电脑——台式电脑、笔记本电脑和平板电脑。

3D基准性能测试:3DMark

3D基准性能测试:3DMark

 

时至今日依然没有任何一个测试软件或者游戏能够取代3DMark在游戏玩家心目中的地位,因为3DMark的魅力就在于它所带来的不仅仅是惊艳的画面,更重要的是向广大玩家提供了一种权威、系统、公正的衡量显卡性能的方式。

核芯显卡基准性能:3DMark 11

3DMark 11的特色与亮点:

1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面细分、计算着色器、多线程。

2、原生支持64bit,保留32bit:原生64位编译程序,独立的32位、64位可执行文件,并支持兼容模式。

3、全新测试场景:总计六个测试场景,包括四个图形测试(其实是两个场景)、一个物理测试、一个综合测试,全面衡量GPU、CPU性能。

4、抛弃PhysX,使用Bullet物理引擎:抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库,支持碰撞检测、刚体、软体,根据ZLib授权协议而免费使用。

3D基准性能测试:3DMark 11

对于现代显卡测试而言,除了3DMark之外必不可少的项目就是来自俄罗斯的Unigine Heaven(天堂),尤以其高负载、高压榨而知名。现在,新一代3DMark发布之后,Unigine也奉上了全新的显卡测试程序“Valley”(山谷)。

3D基准性能测试:Unigine Valley

Valley正是Heaven的开发团队一手打造的,可以在最大程度上榨干GPU显卡资源。这次场景来到了一个优美空灵的山谷,群山环绕,郁郁葱葱,白雪皑皑,旭日初升,而且拥有极致的细节,每一片花瓣、每一株小草都清晰可见。

Unigine Valley分为基础版、高级版、专业版三个版本,其中基础版免费,支持测试预设、自定义设置、GPU监视、交互模式,不支持循环测试(也就是拷机模式)、命令行、CSV报告,对于普通用户和一般评测足够用了。

3D基准性能测试:Unigine Valley

《孤岛危机3》支持大量的高端图形选项以及高分辨率材质。在游戏中,PC玩家将能看到一系列的选项,包括了游戏效果、物品细节、粒子系统、后置处理、着色器、阴影、水体、各向异性过滤、材质分辨率、动态模糊以及自然光。技术主管Marco Corbetta表示之所以《孤岛危机2》并不包含这么多的选项,是因为开发主机板的开发组实在是搞的太慢了。

显卡游戏性能测试:《孤岛危机3》

显卡游戏性能测试:《孤岛危机3》

 

Square Enix证实了旗下经典作品《古墓丽影》系列将推出全新作品,官方表示,这次他们将带领玩家回到劳拉最初的探险中,完整体验她成为一名伟大冒险家的精采过程。《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。

独立显卡游戏性能:Tomb Raider 9

回顾以往的作品,劳拉的标志自然是双枪,此次这部讲述劳拉初次的生存冒险,将会采用弓箭作为劳拉的标志武器。在濒临日本的海域的一座小岛,劳拉除了面对神秘的宗教威胁,还要面对如何生存,譬如拿起弓箭,射杀小动物以觅食,谁说劳拉不是一个谋杀者呢?可为了生存,弱肉强食只是为了能够生存。

显卡游戏性能测试:《古墓丽影9》

由EA DICE工作室开发的《战地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11,并且拥有强大的物理效果,最大的亮点还是光照系统,其渲染的场景已近乎乱真的地步,视觉效果堪称绝赞。游戏还支持即时昼夜系统,为玩家营造一个亲临现场的真实环境。

显卡游戏性能测试:《战地3》

寒霜2引擎最大的特点便是支持大规模的破坏效果。由于考虑到游戏的画面表现以及开发成本,DICE放弃了以只支持DX9的WINDOWS XP操作系统。另外由于该引擎基于DX11研发,向下兼容DX10,因而游戏只能运行于WINDOWS VISTA以上的的操作系统。

《战地3》采用了ANT引擎制作人物的动作效果。在此之前,ANT引擎已在EA Sports旗下的《FIFA》等游戏中得到应用,不过在FPS游戏中使用尚属首次。相较于Havok等物理引擎,用ANT引擎可以花费较少的精力制作出逼真的效果。举例来说,战士在下蹲时会先低头俯身、放低枪口,而不是像以前的游戏那样头、身、枪如木偶般同时发生位移。此外,ANT引擎也可以让电脑AI的行动更加合理。但这款大作目前并不能良好的兼容120Hz3D以及红蓝3D模式。

显卡游戏性能测试:《战地3》

游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。

显卡游戏性能测试:《地铁 2033》

画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT,以至于我们都不敢开启抗锯齿进行测试,只是将游戏内置的效果调至最高。游戏自带Benchmark,这段画战斗场景并不是很宏大,但已经让高端显卡不堪重负了。

测试说明:如果说是CRYSIS发动了DX10时代的显卡危机,那地铁2033无疑是DX11时代的显卡杀手!地铁2033几乎支持当时可以采用的所有新技术,在画面雕琢上大肆铺张,全然不顾显卡们的感受,和CRYSIS如出一辙。然而CRYSIS靠着特效的堆积和不错的优化,其惊艳绝伦的画面和DX9C游戏拉开了距离,终究赚足了眼球;而地铁则没有这么好运了,画面固然不差,BUG却是很多,招来了大量的非议。

显卡游戏性能测试:《地铁 2033》

《Aliens vs. Predator》同时登陆PC、X360和PS3,其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注,是AMD大力推行的游戏之一,但是这样的主题难免让本作有很多不和谐的地方,暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志,表示不会为了通过审查而放弃电子娱乐产品发行商的责任,因为游戏要维持“异形大战铁血战士”这一中心主题,无论画面、玩法还是故事线都不能偏离。

显卡游戏性能测试:《异形VS铁血战士》

画面设置AVP原始版本并不支持AA,但升级至1.1版本之后,MSAA选项出现在了DX11增强特效当中,当然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算太高,所以笔者直接将特效调至最高进行测试。

显卡游戏性能测试:《异形VS铁血战士》

《狙击精英》是2005年Reblion推出的一款以二战为背景的狙击游戏作品,一经推出后就获得英国独立游戏开发者协会的“最佳PC/主机游戏”大奖,《狙击精英V2》则是这款作品的续作,据游戏开发商称续作继续秉承了游戏潜入类狙击的风格,较初代来说更加注重枪击后的真实感,“我们保证,新游戏将是最真实的二战狙击类游戏。不仅仅在武器弹道上,还有在开枪之前那种紧张的气氛,都会很真实的表现出来。”Rebellion的首席执行官杰森·科林斯雷(Jason Kingsley)如是说。

显卡游戏性能测试:《狙击精英2》

游戏的画面在整体上相当的不错,无论是从整体的质感,还是画面的流畅性看都达到了很高的水准,在光源的处理上也非常的到位。同时,游戏依旧延续了初代精益求精的场景设计的理念,比如城市巷战地图中的断壁残垣以及黑烟冲天、山洞地图中充满着神秘气息的导弹基地等都给笔者留下了深刻的印像。

显卡游戏性能测试:《狙击精英2》

在互联网时代的今天,网络日益融入人们的生活,爱网、用网成为时尚,上网络玩游戏成为青年喜爱的娱乐方式之一。军事游戏在国外一些军队已发展多年、形成体系,并广泛应用于教育、训练。我军军事游戏目前尚处于起步阶段,基层部队日常娱乐多以小型益智类棋牌游戏为主,形式和功能都比较单一。

显卡游戏性能测试:《光荣使命》

一些部队开展网上军事游戏对抗,使用的也大都是国外军事游戏的汉化版,游戏内容和体现的价值理念、军事思想,与我军有很大差异,长期使用不利于部队教育训练,甚至可能误导官兵。新研发的军事游戏《光荣使命》拥有完全自主知识产权,填补了我军军事游戏的空白。

显卡游戏性能测试:《光荣使命》

《孤岛惊魂3》继承着《孤岛惊魂》系列的 纯种血统 ,融合了系列前作的所有优点,并有着新鲜的创作路线,无论是《孤岛惊魂》系列的老玩家还是新近加入的新手,都可以享受到它宏大的故事。”

独立显卡游戏性能:《孤岛惊魂 3》

在《孤岛惊魂3》中,玩家将会扮演Jason Brody。在这个没有法律、暴力才是真王道的原始天堂中,玩家将决定整个故事的发展。玩家所作出的选择,包括与谁战斗、与谁结盟都会影响到剧情。在游戏中,玩家扮演的Jason Brody将在这个人性已经泯灭了的孤岛上杀出一条血路。

显卡游戏性能测试:《孤岛惊魂3》

接下来我们来看一下这两款显卡的待机及满载的温度和功耗如何!

GTX750、GTX750Ti超频及功耗、温度测试

GTX750、GTX750Ti超频及功耗、温度测试

GTX750、GTX750Ti超频及功耗、温度测试

GTX750、GTX750Ti超频及功耗、温度测试

从上面的测试不难看出,全新架构下的GTX750系列,不仅功耗控制的很好,而且温度也很低,让人对未来GM系列的核心的表现非常期待。

    下面我们来看一下GTX750超频后的表现,虽然公版卡没有外接6pin供电口,但是由于本身的功耗很低,因此,简单的超频也能满足PCI-E接口的供电需求!

到这里,本次的测试也告一段落了,如果说公版卡并没有发挥出Maxwell架构的完全之处,那么我们似乎多了一个期待非公版显卡的表现的理由了,更不用说未来强大的GM110芯片了。从整体上来看,Maxwell带来的能效比确实有大幅的提升,实在是让人欣喜。

全文总结:能效翻倍 入门游戏玩家首选

我们要看到的是目前的GTX750系列依旧采用28nm工艺来制造,如果说完整版的GM110核心能到20nm制程,想必性能又会有大幅飞升,对于未来的发展,总是让人很期待。

全文总结:能效翻倍 入门游戏玩家首选

截至到发稿时,我们接到消息,GTX 750Ti的NVIDIA官方定价为人民币999元,而GTX750定价为799元,这样的价格以消费者的角度来说,似乎并没有到神器的地步,不过作为全新架构的产品上市,价格虚高是业界一贯的作风,如果笔者没有预料错误的话,相信在几个月内会有所下调,那时候非公版产品也全面上市并铺货,到时候一定会成为新一代入门级游戏利器的。

全文总结:能效翻倍 入门游戏玩家首选

     再来说一下另一个情况,那就是在GTX750系列发布、上市之前,AMD悄悄的发布的R7 265,这款显卡可以看成是HD7850的马甲版,至于AMD如此做的原因除了是统一产品命名之外,更多是应该还是感到了来自NV的压力,未来的竞争将会更加激烈。

全文总结:能效翻倍 入门游戏玩家首选

 

    最后,出来性能之外,GTX750系列的功耗也成为了很多消费者关注的重点,特别是网吧业主,一块节电而性能又不错的产品相信将来也会成为不少网吧的标配,再配合NV独家的GFE软件,游戏玩家应该会更加享受未来的体验,那就和笔者一同起来更多新产品的带来吧。

posted @ 2014-07-15 23:48  Gui Kai  阅读(1661)  评论(0编辑  收藏  举报