随笔分类 - CUDA
摘要:本人虽然研二开始接触cuda,但是终究未从事cuda开发,故而皆为零零散散的知识,虽然看了好几本cuda编程的书籍以及官网的文档(肯定没看全啊,我也不是专门从事cuda开发),市面上几乎都是关于如何cuda编程的书籍,而这些书籍中也看过不少《CUDA C编程权威指南》,《CUDA专家手册》,《CUD
阅读全文
摘要:### 1 引言 方便检索 ### 2 名词解释 **FLOPS**:“每秒浮点运算次数”,“每秒峰值速度”,是“每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。所谓的“浮点运算”,实际上包括了所有涉及小数的运算。这类运算在某类应用软件中
阅读全文
摘要:很多时候,我们是基于python进行模型的设计和运行,可是基于python本身的速度问题,使得原生态python代码无法满足生产需求,不过我们可以借助其他编程语言来缓解python开发的性能瓶颈。这里简单介绍个例子,以此完成如何先基于cuda编写瓶颈函数,然后在将接口通过cpp进行封装,最后以库的形
阅读全文
摘要:本部分来自于《大规模并行处理器编程实战》第六章、第七章。打算不再看这本书了,准备看《programming massively parallel processors 2nd》,即它的第二版,第一版是09年的,第二版是13年的,虽说第二版可是里面涉及的是cuda4.0 和5.0,然而现在2015年7...
阅读全文
摘要:引言 2015年05月25日。之前在csdn写博客,可是csdn经常进不去,所以转战博客园,就用了一键博客搬家功能,其中诺有版面问题,请来这边:http://blog.csdn.net/shouhuxianjian 0 引言 NLP之引言 1 词向量
阅读全文
摘要:__global__ void add( int *a, int *b, int *c) { int tid = threadIdx.x + blockIdx.x *blockDim.x; while (tid c[tid] = a[tid] + b[tid];//your operat...
阅读全文
摘要:和CPU模式中的内存-cache-寄存器模式一样,GPU也是通过设置全局存储器,局部存储器,寄存器的方式来加速,很多时候我们需要自定义处理数据布局才能真正提高在GPU上的运算速度。 首先,从是否可编程角度,GPU可分为: 1)可编程的存储:寄存器,共享存储,局部存储,常量存储,纹理存储,全局存储;
阅读全文
摘要:本小节来自《大规模并行处理器编程实战》第四节,该书是很好的从内部原理结构上来讲述了CUDA的,对于理解CUDA很有帮助,借以博客的形式去繁取间,肯定会加入自己个人理解,所以有错误之处还望指正。 一、块索引与线程索引 CUDA是细粒度的,数据并行的轻量级线程,在启动一个CUDA的一个Kernel函数的
阅读全文
摘要:这部分来自于《CUDA_C_Programming_Guide.pdf》,看完《GPU高性能变成CUDA实战》的第四章,觉得这本书还是很好的,是一种循序渐进式的书,值得看,而不是工具书那种,适合入门,看完这章,觉得应该先简单的列下函数类型限定符,顺带列下变量类型限定符。知识是“积少成多”的。ps;极...
阅读全文
摘要:电脑配置:windows7 sp1 64bit + CUDA6.5 + GeForce GTX780 Ti显卡中的GPU因为多核可以处理很多相同的操作,相比较来说cpu就像个健全的手,什么活都能干,而gpu就是个非健全的手,只能干特定的事情,但是架不住手多,随便几百上千的。关于从cpu过渡到GPU推...
阅读全文