上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 26 下一页
摘要: 转自:http://blog.csdn.net/augusdi/article/details/12529247CUDA编程模型CUDA编程模型将CPU作为主机,GPU作为协处理器(co-processor)或设备。在这个模型中,CPU负责逻辑性强的事务处理和串行计算,GPU则专注于高度线程化的并行处理任务。CPU、GPU各自拥有相互独立的存储器地址空间。一旦确定了程序中的并行部分,就可以考虑把这部分计算工作交给GPU。kernel:运行在GPU上的C函数称为kernel。一个kernel函数并不是一个完整的程序,而是整个CUDA程序中的一个可以被并行执行的步骤。当调用时,通过N个不同的CUD 阅读全文
posted @ 2013-11-08 19:45 qingsun_ny 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 转自:http://hackecho.com/2013/04/cuda-parallel-reduction/Parallel Reduction是NVIDIA-CUDA自带的例子,也几乎是所有CUDA学习者的的必看算法。在这个算法的优化中,Mark Harris为我们实现了7种不同的优化版本,将Bandwidth几乎提高到了峰值。相信我们通过仔细研读这个过程,一定能对CUDA程序的优化有更加深刻的认识。下面我们来一一细看这几种优化方案,数据和思想均摘录自官方SDK中Samples的算法说明。Parallel ReductionParallel Reduction可以理解为将一个数组中的所有数 阅读全文
posted @ 2013-11-08 15:39 qingsun_ny 阅读(2593) 评论(0) 推荐(0) 编辑
摘要: Threads are executed in warps of 32, with all threads in thewarp executing the same instruction at the same timeWhat happens if different threads in a warp need to dodifferent things?if (x<0.0) z = x-2.0;else z = sqrt(x);This is called warp divergence – CUDA will generate correctcode to handle th 阅读全文
posted @ 2013-11-08 15:37 qingsun_ny 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 使用OneNote将图片直接拖入onenote里头,然后右键还原为原始尺寸,然后继续右键,编辑替换文字。 阅读全文
posted @ 2013-11-03 16:50 qingsun_ny 阅读(214) 评论(0) 推荐(0) 编辑
摘要: §1 个 multiprocessor 1个instruction unit 8 个processor 在一个warp中执行 32条threads1个processor处理1条thread,所以1个warp在1个multiprocessor中需要4个clock cycles执行完成;1个multiprocessor可以处理多个block,但是一个block只能放在一个multiprocessor中;一个block里头有shared memory,这些shared memory分成16个banks,刚好让half-warp (一个warp有32条threads)操作。当多条proces 阅读全文
posted @ 2013-11-01 20:30 qingsun_ny 阅读(928) 评论(0) 推荐(0) 编辑
摘要: 1 时态描述图表数据时用一般时,但是描述研究对象的情况,用过去时,但是在分析原因时,如果是结合自己的理解来分析,那就用一般时。tense:use present tense to describe the figure.When talk the work did by author, use past tense.When talk about the common knowledge or our own interpretation when analyze data, use present tense.2 the如果是大家都知道的,或者是谈话的人都知道的,要用the,如果是泛指的,就 阅读全文
posted @ 2013-11-01 10:23 qingsun_ny 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-10-24 18:40 qingsun_ny 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 1 显卡的DRAM相当于CPU的RAM (Random access memory, 内存)。二者共同的特点是通电的时候才能使用,不正常断电数据就丢失,但正常情况下,会将数据存储到硬盘中。显存又称帧缓冲器(用于场景显示)。2 GPU其实相当于是多核的CPU,但是性能相比CPU要弱得多。其实GPU也可以做的像CPU那样强,只是这样成本会高很多。3 显卡内存(显存/DRAM,Dynamic Random Access Memory,即动态随机存取存储器)和内存(RAM)统称memory(记忆体)。3 硬盘速度慢,RAM速度快。原因在于硬盘读取数据的时候,需要指针转到相应的位置,然后读取数据。而RA 阅读全文
posted @ 2013-10-24 18:37 qingsun_ny 阅读(1362) 评论(0) 推荐(0) 编辑
摘要: 转自:http://luofl1992.is-programmer.com/posts/38830.htmlCUDA编程中,习惯称CPU为Host,GPU为Device。编程中最开始接触的东西恐怕是并行架构,诸如Grid、Block的区别会让人一头雾水,我所看的书上所讲述的内容比较抽象,对这些概念的内容没有细讲,于是在这里作一个整理。Grid、Block和Thread的关系Thread :并行运算的基本单位(轻量级的线程)Block :由相互合作的一组线程组成。一个block中的thread可以彼此同步,快速交换数据,最多可以同时512个线程。Grid :一组Block,有共享全局内存Kern 阅读全文
posted @ 2013-10-23 19:15 qingsun_ny 阅读(3302) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm5h.html四、CUDA性能CUDA中的block被划分成一个个的warp,在GeForce8800GTX上,一个warp有32个线程。若不够32个线程,则padding相应数目的线程。Warp中的线程ID是连续且递增的。对于二维组织的线程来说,先把threadIdx.y为0的线程按照threadIdx.x从小到大排,然后把threadIdx.y为1的线程按照threadIdx.x从小到大的顺序排列成warp。对于三维组织的线程来说,先排列threadIdx.z为0的二维线程,再排列threadI 阅读全文
posted @ 2013-10-22 17:13 qingsun_ny 阅读(970) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 26 下一页