GPU编程和流式多处理器（二）

2. 整数支持

SM具有32位整数运算的完整补充。

加法运算符的可选否定加法
乘法与乘法加法
整数除法
逻辑运算
条件码操作
to/from浮点转换
其它操作（例如，SIMD指令用于narrow整数，population人口计数，查找第一个零）

CUDA通过标准C运算符公开了大部分此功能。非标准运算（例如24位乘法）可以使用内联PTX汇编或内部函数进行访问。

2.1. 乘法

在Tesla级和Fermi级硬件上，乘法的实现方式有所不同。特斯拉实现了24位乘法器，而费米实现了32位乘法器。因此，SM 1.x硬件上的完整32位乘法需要四个指令。对于针对特斯拉级硬件的性能敏感代码，使用内在函数进行24位乘法是一项性能上的成功。表4显示了与乘法有关的内在函数。

表4乘法本征

2.2. 混合（位操作）

CUDA编译器实现了许多用于位操作的内在函数，如表5所示。在SM 2.x和更高版本的体系结构上，这些内在函数映射到单个指令。在Fermi之前的体系结构上，它们是有效的，可以编译成许多指令。如有疑问，请反汇编并查看微码！64位变体在固有名称__clzll（），ffsll（），popcll（）和brevll（）的后面附加了“ ll ”（“ long long”为两个ell）。

表5位操作本征

2.3. Funnel渠道转移（SM 3.5）

GK110添加了一条64位的“漏斗移位”指令，该指令将两个32位值连接在一起（最低有效和最高有效的一半指定为单独的32位输入，但是硬件在对齐的寄存器对上运行），将结果移位左移或右移64位值，然后返回最高有效（左移）或最低有效（右移）32位。

可以使用表6中给出的内在函数访问Funnel移位。这些内在函数在sm_35_intrinsics.h中作为嵌入式设备功能（使用嵌入式PTX汇编程序）实现。默认情况下，移位计数的最低有效5位被屏蔽；_lc和_RC内在移位值维持在范围0..32。

表6. Funnel平移本征

Funnel移位的应用程序包括以下内容。

多字移位操作
使用对齐的加载和存储在未对齐的缓冲区之间复制内存
旋转

要右移大于64位的数据大小，使用重复的__funnelshift_r（）调用，从最低有效字到最高有效字进行操作。结果的最高有效字是使用运算符>>来计算的，该运算符会根据整数类型将零或符号位进行移位。若要将数据大小左移大于64位，使用重复的__funnelshift_l（）调用，从最高有效字到最低有效字进行操作。结果的最低有效字是使用operator <<计算的。如果hi和lo参数相同，则Funnel移位会影响旋转操作。

posted @ 2021-01-05 07:34 吴建明wujianming 阅读(275) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

吴建明

GPU编程和流式多处理器（二）

2. 整数支持

2.1. 乘法

表4乘法本征

表5位操作本征

表6. Funnel平移本征

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论