摘要:
CPU 矩阵乘法能相乘的两个矩阵,必须满足一个矩阵的行数和第二个矩阵的列数相同.A(N*P) * B(P*M) = C(N*M). 其中P是行数,N是列数, 从宽高的角度来说,即 A的宽度和B的高度是相同的.C矩阵 = ha * wb.其中C(i,j) = A矩阵中的i行和B矩阵中的j列进行点乘得到... 阅读全文
摘要:
字体下载安装字体即可 阅读全文
摘要:
在CUDA基本概念介绍有简单介绍CUDA memory。这里详细介绍:每一个线程拥有自己的私有存储器,每一个线程块拥有一块共享存储器(Shared memory);最后,grid中所有的线程都可以访问同一块全局存储器(global memory)。除此之外,还有两种可以被所有线程访问的只读存储器:常... 阅读全文
摘要:
在HOST端我们会分配block的dimension, grid的dimension。但是对应到实际的硬件是如何执行这些硬件的呢?如下图:lanuch kernel 执行一个grid。一个Grid有8个block,可以有两个硬件执行单元,一个执行一个block,需要执行4次,或者像右边有4个执行单元... 阅读全文
该文被密码保护。 阅读全文
摘要:
ANDROID Porting系列二、配置一个新产品详细说明下面的步骤描述了如何配置新的移动设备和产品的makefile运行android。1.目录//vendor/创建一个公司目录 mkdir vendor/2.创建一个目录下的公司与您在步骤1中创建产品目录. mkdir vendor//prod... 阅读全文
摘要:
译自:http://source.android.com/porting/build_system.htmlAndroid使用一个自定义生成系统生成工具,二进制文件和文档。本文档提供了一个建立Android的编译系统的概述。Android的编译系统需要最新版本的GNU make,(请注意,Andro... 阅读全文
摘要:
Android定义的路径全局变量ifeq (,$(strip $(OUT_DIR))) OUT_DIR := $(TOPDIR)out endif DEBUG_OUT_DIR := $(OUT_DIR)/debug # Move the host or target under the debu... 阅读全文
摘要:
1.Programming_Massively_Parallel_Processors.pdf2.CUDA_C_Programming_Guide.pdf3.CUDA范例精解通用GPU编程.pdf4.GPU高性能编程CUDA实战中文.pdf5.CUDA深入浅出.pdf 阅读全文
摘要:
如图 阅读全文