GPU 编程第六次作业（实验七）

1 实验步骤一

1.1 运行结果：

1.2 绘制图像

1.3 分析原因

就和这个图表现出的是一样的

图一的访问尽管会有位移，但总归是顺序连续的访问，所以可以通过Coalesce 进行少量的 memory transactions，位移是多少没什么差别

图二表示说，访问的位置越稀疏速度就越慢，因为一次 transaction 访问到的显存位置就变少，访问次数就增加，效率就低

2 实验步骤二

2.1 代码

__global__ void kernel_reverse_shared_mem(DTYPE *input, DTYPE *output, int n)
{
	unsigned int i = blockDim.x*blockIdx.x+threadIdx.x;
	if(i>=n) return;
	__shared__ DTYPE data[BLOCK_SIZE];
	data[BLOCK_SIZE-1-threadIdx.x]=input[i]; //逆序
	__syncthreads();
	unsigned int j=((n-1-i)/BLOCK_SIZE)*BLOCK_SIZE+threadIdx.x;
	output[j]=data[threadIdx.x]; //顺序
}

2.2 实验结果

posted @ 2023-05-02 23:43 缙云山车神阅读(30) 评论(0) 编辑收藏举报

刷新页面返回顶部

缙云山车神

我会飞