比较CPU和GPU中的矩阵计算

GPU 计算与 CPU 相比能够快多少?在本文中,我将使用 Python 和 PyTorch 线性变换函数对其进行测试。

以下是测试机配置:

CPU:英特尔 i7 6700k (4c/8t) GPU:RTX 3070 TI(6,144 个 CUDA 核心和 192 个 Tensor 核心) 内存:32G 操作系统:Windows 10

无论是cpu和显卡都是目前常见的配置,并不是顶配(等4090能够正常发货后我们会给出目前顶配的测试结果)

NVIDIA GPU 术语解释

CUDA 是Compute Unified Device Architecture的缩写。可以使用 CUDA 直接访问 NVIDIA GPU 指令集,与专门为构建游戏引擎而设计的 DirectX 和 OpenGL 不同,CUDA 不需要用户理解复杂的图形编程语言。但是需要说明的是CUDA为N卡独有,所以这就是为什么A卡对于深度学习不友好的原因之一。

Tensor Cores是加速矩阵乘法过程的处理单元。

例如,使用 CPU 或 CUDA 将两个 4×4 矩阵相乘涉及 64 次乘法和 48 次加法,每个时钟周期一次操作,而Tensor Cores每个时钟周期可以执行多个操作。

 

完整文章:

https://avoid.overfit.cn/post/a4e312b6f109444b9e27de31bf5a7b1d

posted @ 2022-10-22 11:10  deephub  阅读(114)  评论(0编辑  收藏  举报