从头开始进行CUDA编程：线程间协作的常见技术

在前一篇文章中，我们介绍了如何使用 GPU 运行的并行算法。这些并行任务是那些完全相互独立的任务，这点与我们一般认识的编程方式有很大的不同，虽然我们可以从并行中受益，但是这种奇葩的并行运行方式对于我们来说肯定感到非常的复杂。所以在本篇文章的Numba代码中，我们将介绍一些允许线程在计算中协作的常见技术。

线程间的协作

简单的并行归约算法

我们将从一个非常简单的问题开始本节:对数组的所有元素求和。这个算法非常简单。如果不使用NumPy，我们可以这样实现它:

def sum_cpu(array):
s = 0.0
for i in range(array.size):
s += array[i]
return s

这看起来不是很 Pythonic。但它能够让我们了解它正在跟踪数组中的所有元素。如果 s 的结果依赖于数组的每个元素，我们如何并行化这个算法呢？首先，我们需要重写算法以允许并行化，如果有无法并行化的部分则应该允许线程相互通信。

到目前为止，我们还没有学会如何让线程相互通信……事实上，我们之前说过不同块中的线程不通信。我们可以考虑只启动一个块，但是我们上次也说了，在大多数 GPU 中块只能有 1024 个线程！

如何克服这一点？如果将数组拆分为 1024 个块（或适当数量的threads_per_block）并分别对每个块求和呢？然后最后，我们可以将每个块的总和的结果相加。下图显示了一个非常简单的 2 块拆分示例。

上图就是对数组元素求和的“分而治之”方法。

完整文章：

https://avoid.overfit.cn/post/644465cc7a31427c88d1378728aa876c

posted @ 2022-11-13 11:09 deephub 阅读(62) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

从头开始进行CUDA编程：线程间协作的常见技术

线程间的协作

公告