摘要: 掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系。由于作者能力有限,难免有疏漏,恳请读者批评指正... 阅读全文
posted @ 2016-10-13 23:33 ZhangPYi 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系。由于作者能力有限,难免有疏漏,恳请读者批评指正... 阅读全文
posted @ 2016-10-13 23:33 ZhangPYi 阅读(599) 评论(0) 推荐(1) 编辑
摘要: #pragma宏命令主要是改变编译器的编译行为,其他的参数网上资料比较多,我只想简单说下#pragma unroll的用法,因为网上的资料比较少,而且说的比较笼统,请看下面的一段代码int main(){... 阅读全文
posted @ 2016-10-13 23:18 ZhangPYi 阅读(2592) 评论(0) 推荐(0) 编辑
摘要: #pragma宏命令主要是改变编译器的编译行为,其他的参数网上资料比较多,我只想简单说下#pragma unroll的用法,因为网上的资料比较少,而且说的比较笼统,请看下面的一段代码int main(){... 阅读全文
posted @ 2016-10-13 23:18 ZhangPYi 阅读(603) 评论(0) 推荐(0) 编辑
摘要: Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blocksw... 阅读全文
posted @ 2016-10-13 22:42 ZhangPYi 阅读(346) 评论(0) 推荐(1) 编辑
摘要: Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blocksw... 阅读全文
posted @ 2016-10-13 22:42 ZhangPYi 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 1.在用vs运行cuda的一些例子时,在编译阶段会报出很多警告: warning C4819 ...... 解决这个警告的方法是打开出现warning的文件,Ctrl+A全选,然后在文件菜单... 阅读全文
posted @ 2016-10-13 22:22 ZhangPYi 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 1.在用vs运行cuda的一些例子时,在编译阶段会报出很多警告: warning C4819 ...... 解决这个警告的方法是打开出现warning的文件,Ctrl+A全选,然后在文件菜单... 阅读全文
posted @ 2016-10-13 22:22 ZhangPYi 阅读(502) 评论(0) 推荐(0) 编辑
摘要: GPU 的硬体架构 这里我们会简单介绍,NVIDIA 目前支援CUDA 的GPU,其在执行CUDA 程式的部份(基本上就是其shader 单元)的架构。这里的资料是综合NVIDIA 所公布的资讯,以及NV... 阅读全文
posted @ 2016-10-13 22:19 ZhangPYi 阅读(546) 评论(0) 推荐(0) 编辑
摘要: GPU 的硬体架构 这里我们会简单介绍,NVIDIA 目前支援CUDA 的GPU,其在执行CUDA 程式的部份(基本上就是其shader 单元)的架构。这里的资料是综合NVIDIA 所公布的资讯,以及NV... 阅读全文
posted @ 2016-10-13 22:19 ZhangPYi 阅读(154) 评论(0) 推荐(0) 编辑
摘要: GPGPU OpenCL/CUDA 高性能编程的10大注意事项1.展开循环 如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。 循环展开... 阅读全文
posted @ 2016-10-13 21:27 ZhangPYi 阅读(176) 评论(0) 推荐(0) 编辑
摘要: GPGPU OpenCL/CUDA 高性能编程的10大注意事项1.展开循环 如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。 循环展开... 阅读全文
posted @ 2016-10-13 21:27 ZhangPYi 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 关于共享内存(shared memory)和存储体(bank)的事实和疑惑主要是在研究访问共享内存会产生bank conflict时,自己产生的疑惑。对于这点疑惑,网上都没有相关描述,不管是国内还是国外的... 阅读全文
posted @ 2016-10-13 21:20 ZhangPYi 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 关于共享内存(shared memory)和存储体(bank)的事实和疑惑主要是在研究访问共享内存会产生bank conflict时,自己产生的疑惑。对于这点疑惑,网上都没有相关描述,不管是国内还是国外的... 阅读全文
posted @ 2016-10-13 21:20 ZhangPYi 阅读(193) 评论(0) 推荐(0) 编辑
摘要: CUDA SHARED MEMORYshared memory在之前的博文有些介绍,这部分会专门讲解其内容。在global Memory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问题可以忽... 阅读全文
posted @ 2016-10-13 21:19 ZhangPYi 阅读(437) 评论(0) 推荐(0) 编辑
摘要: CUDA SHARED MEMORYshared memory在之前的博文有些介绍,这部分会专门讲解其内容。在global Memory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问题可以忽... 阅读全文
posted @ 2016-10-13 21:19 ZhangPYi 阅读(913) 评论(0) 推荐(0) 编辑
摘要: http://hi.baidu.com/pengkuny/item/c8070b388d75d481b611db7a以前以为 shared memory 是一个万能的 L1 cache,速度很快,只要数据... 阅读全文
posted @ 2016-10-13 21:18 ZhangPYi 阅读(188) 评论(0) 推荐(0) 编辑
摘要: http://hi.baidu.com/pengkuny/item/c8070b388d75d481b611db7a以前以为 shared memory 是一个万能的 L1 cache,速度很快,只要数据... 阅读全文
posted @ 2016-10-13 21:18 ZhangPYi 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 举报 说到显卡,就不免令人想到英伟达和AMD两家面向个人消费级和企业级最大的显示芯片生产企业,英伟达和AMD,今天小编为大家简单的介绍一下英伟达的显卡选购方面的攻略,为一些想要购买显卡的用户提供一些参考... 阅读全文
posted @ 2016-10-13 16:07 ZhangPYi 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 举报 说到显卡,就不免令人想到英伟达和AMD两家面向个人消费级和企业级最大的显示芯片生产企业,英伟达和AMD,今天小编为大家简单的介绍一下英伟达的显卡选购方面的攻略,为一些想要购买显卡的用户提供一些参考... 阅读全文
posted @ 2016-10-13 16:07 ZhangPYi 阅读(306) 评论(0) 推荐(0) 编辑