比较CPU和GPU中的矩阵计算

GPU 计算与 CPU 相比能够快多少？在本文中，我将使用 Python 和 PyTorch 线性变换函数对其进行测试。

以下是测试机配置：

CPU：英特尔 i7 6700k (4c/8t) GPU：RTX 3070 TI（6,144 个 CUDA 核心和 192 个 Tensor 核心）内存：32G 操作系统：Windows 10

无论是cpu和显卡都是目前常见的配置，并不是顶配（等4090能够正常发货后我们会给出目前顶配的测试结果）

NVIDIA GPU 术语解释

CUDA 是Compute Unified Device Architecture的缩写。可以使用 CUDA 直接访问 NVIDIA GPU 指令集，与专门为构建游戏引擎而设计的 DirectX 和 OpenGL 不同，CUDA 不需要用户理解复杂的图形编程语言。但是需要说明的是CUDA为N卡独有，所以这就是为什么A卡对于深度学习不友好的原因之一。

Tensor Cores是加速矩阵乘法过程的处理单元。

例如，使用 CPU 或 CUDA 将两个 4×4 矩阵相乘涉及 64 次乘法和 48 次加法，每个时钟周期一次操作，而Tensor Cores每个时钟周期可以执行多个操作。

完整文章：

https://avoid.overfit.cn/post/a4e312b6f109444b9e27de31bf5a7b1d

posted @ 2022-10-22 11:10 deephub 阅读(158) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 从头开始进行CUDA编程：Numba并行编程的基本概念

· 为深度学习选择最好的GPU

· GPU，CUDA，cuDNN的理解

· 使用GPU训练神经网络的历史

· CPU（中央处理器）和GPU（图像处理器）的区别

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

公告

我们的网站：

提供专业的人工智能知识，涉及领域包括CVNLP和数据挖掘等

overfit深度学习

AI方向干货分享，喜欢请关注我们公众号

昵称： deephub
园龄： 4年11个月
粉丝： 10
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:FlashAttention算法详解
写的很好，下次别写了
--nidemingzi
2. Re:Python 3.11比3.10 快60%：使用冒泡排序和递归函数对比测试
指令报错了
NameError: name 'n' is not defined

python3.9
--万一免五开户指南