摘要: https://docs.nvidia.com/cuda/archive/9.0/cuda-c-programming-guide/index.html 阅读全文
posted @ 2020-06-15 18:24 糖糖_彭 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-06-12 15:47 糖糖_彭 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1:context 1 {//根据设备创建上下文 2 cl_platform pform; 3 size_t num; 4 cl_device_id* devices; 5 cl_context context; 6 size_t size; 7 8 clGetDeviceIDs( platform 阅读全文
posted @ 2020-06-12 15:43 糖糖_彭 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 一:多核世界中的软件 1:并发性 软件系统包含多个活动的操作流(线程),若这些操作流同时推进,则称该软件是并发的。 A:并发性 在同一段时间内,一个处理器可以并发的执行多个任务--多线程交替执行 B:并行性 在同一时刻,多核处理器能够同时运行多个程序 2:并发程序设计核心 1)必须定义并发执行的操作 阅读全文
posted @ 2020-06-10 14:59 糖糖_彭 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 1:运行时API实现 事件管理可以用于测量程序运行时间,或者管理CPU和GPU同时进行 1 //创建事件 2 cudaEvent_t start,stop; 3 cudaEventCreate(&start); 4 cudaEventCreate(&stop); 5 6 cudaEventRecor 阅读全文
posted @ 2020-06-10 11:24 糖糖_彭 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1:定义方法 创建一个cudaStream_t对象,并在启动内核和进行memcpy时将流对象作为参数传入。 2:运行时API实现 1 //创建了两个流,并在pinned memory中分配了float型的数组hostPtr 2 cudaStream_t stream[2]; 3 for(int i 阅读全文
posted @ 2020-06-10 09:53 糖糖_彭 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 实例:asyncAPI实例 1 #include <stdio.h> 2 #include <cutil_inline.h> 3 4 __global__ void 5 increment_kernel(int* g_data,int inc_value) 6 { 7 int idx = block 阅读全文
posted @ 2020-06-07 22:10 糖糖_彭 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 1:同步函数 1)__syncthreads() 实现线程块中的线程同步 保证线程块中所有线程执行到同一位置; 只有当整个线程块都走向相同分支时,才能在条件语句中使用__syncthreads)(; 一个warp内的线程不用同步; __syncthreads()调用花费时间周期,应尽量避免/节约使用 阅读全文
posted @ 2020-06-07 11:40 糖糖_彭 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 一:cuda编程模型 1:主机与设备 主机 CPU 设备/处理器 GPU CUDA编程模型如下: GPU多层存储空间结构如图: 2:Kernel函数的定义与调用 A:运行在GPU上 相关限定符:__global__能在主机端和device端调用中调用;__device__只能在device端调用 _ 阅读全文
posted @ 2020-06-05 23:00 糖糖_彭 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 左边大顶堆,右边小顶堆。右边数量比左边多一,左边放小的那半数,右边放大的那半 是偶数个,那就返回两个根堆的头结点的q平均值,如果是奇数,就是小根堆的数量大于大根堆数量1个,返回小根堆的头; 当左右平等数量的时候,往小根堆了加入,当小根堆大于大根堆时候,往大根堆里加入 1 priority_queue 阅读全文
posted @ 2020-05-30 20:59 糖糖_彭 阅读(397) 评论(0) 推荐(0) 编辑