摘要:
张量矩阵乘法分块乘法概述 介绍一下矩阵计算相关的内容, 从最基本的算法,到Cutlass这些线性代数模版库, 特别是Layout代数相关的内容,再逐渐细化到一些硬件实现访存优化和一些算子融合。 6.3.1 GEMM概述 1. GEMM定义 对于一个矩阵乘法, 定义如下: (6-1) 一个矩阵乘法定义 阅读全文
摘要:
矩阵分块乘法 通常可以把一个矩阵分成多个块, 例如, (6-4) 可以将其划分为 4个块: (6-5) (6-6) 分块后的矩阵记为: (6-7) 分块矩阵乘法如下所示: (6-7) 划分不一定需要完全等间隔, 只需要满足子矩阵乘法规则即可, 如图6-27所示。 图6-27 子矩阵划分不一定需要完全 阅读全文
摘要:
从硬件的视角看GEMM 1. 分块乘法的内存层次架构 分块矩阵乘法,如图6-28所示, 通过将矩阵分块拆分,能够在处理器的Cache和寄存器内存放进行快速计算,计算完成后写回主存。 图6-28 分块矩阵乘法 首先,所有的数据都在主内存中,如图6-29所示。 图6-29 所有的数据都在主内存中 然后, 阅读全文