摘要: 上一篇扒了single-core的实现,这篇记录一些扩展到多核的思路。 1. 单个AIE core 对于单核,这里假设矩阵乘计算的输入输出为A[m*k] x B [k*n] = C[m*n] 2. 扩展成一条chain:级联 k的维度是需要乘累加起来的,假设k为2048,分到2个核上,每个核就只需要 阅读全文
posted @ 2021-12-06 11:56 chaob 阅读(349) 评论(0) 推荐(0) 编辑