摘要: 如何在 GPU 上优化卷积 将演示如何在 TVM 中编写高性能卷积实现。正方形大小的输入张量和过滤器为例,假设卷积的输入具有大batch批量。在这个例子中,使用不同的布局存储数据,实现更好的数据局部性。缓冲区布局是 HWCN,代表高度、宽度、通道、批次。 准备和算法 对具有 256 个通道和 14 阅读全文
posted @ 2021-10-30 04:52 吴建明wujianming 阅读(188) 评论(0) 推荐(0) 编辑