CUDA编程接口:共享存储器实现矩阵相乘
摘要:
转自http://cuda.it168.com/a2011/1207/1285/000001285186.shtml正如在前面的文章提到的,共享存储器应当比全局存储器更快,详细内容将在后续文章中介绍。任何用访问共享存储器取代访问全局存储器的机会应当被发掘,如下面的矩阵相乘例子展示的那样。 下面的代码... 阅读全文
posted @ 2015-06-23 23:28 moffis 阅读(566) 评论(0) 推荐(0) 编辑