深海的小鱼儿

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  392 随笔 :: 2 文章 :: 92 评论 :: 172万 阅读
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

下面简单介绍一些cuda中的共享存储器和全局存储器 

共享存储器,shared memory,可以被同一块中的所有线程访问的可读写存储器,生存期是块的生命期。

Tesla的每个SM拥有16KB共享存储器。

在编程过程中,有静态的shared memory 动态的shared memory

静态的shared memory 在程序中定义   __shared__ type shared[SIZE];

动态的shared memory 通过内核函数的每三个参数设置大小 extern __shared__ type shared[];

共享存储器被组织为16个bank,每个bank拥有32bit的宽度。

无bank conflict时,一个half-warp内的线程可以在一个内核周期中并行访问

对同一bank的同时访问导致bank conflict   只能顺序处理 访存效率降低

如果half-warp的线程访问同一地址时,会产生一次广播,不会产生bank conflict

__shared__ float shared[256];

float foo = shared[threadIdx.x];

没有访问冲突

__shared__ float shared[256];

float foo = shared[threadIdx.x * 2];

产生2路访问冲突

__shared__ float shared[256];

float foo = shared[threadIdx.x*8];

产生8路访问冲突

posted on   深海的小鱼儿  阅读(400)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
历史上的今天:
2011-05-16 IAR编译duplicate definitions for IAR报错解决办法
2011-05-16 DM9000 寄存器的定义
2011-05-16 SQLite轻量级数据库简介(转)
2011-05-16 php 5.3.6 连接sqlite3
2011-05-16 Jquery 取值 发送ajax,并修改原网页的数据
点击右上角即可分享
微信分享提示