随笔分类 - 单核架构
摘要:先前 blog [1] 从能耗角度量化了现在计算问题本质是访存问题,同时提到由于算法和工艺的限制优化应当存在一个上限。这篇 blog 将结合具体 AI workload 探讨这个边界。 访存优化归类 各种加速工作优化核心在于将更多的操作放在底层低密度、低代价的 on-chip memory ,以避开
阅读全文
摘要:CMOS 计算和存储工艺发展步调并不一致,SOTA Memory 最高频率的远远低于 SOTA CMOS。如下图所示[1]: 除了性能,能耗上存储也远远高于计算能耗,存储能耗受诸多譬如大小、宽度等参数影响,但不妨粗略进行数量级估计计算,如图 2014 年 ISSCC 经典的数据 45 nm 0.9V
阅读全文
摘要:ZigZag 在 PE array-memory hierarchy level 上对 nested-loop based 算子数据部署设计策略进行详细分析。文章作者来自鲁汶 MICAS [1]实验室。 软硬件建模 软件上只涉及 MAC-based 的网络算子(Linear、Convolutiona
阅读全文
摘要:循环是迭代空间的一个点 使用嵌套循环(Nested Loop)抽象不同的 DNN 乘加算子[1],使用多面体数学模型(Polyhedral Model)抽象循环的变换优化。 多面体模型里循环可以用迭代向量或者迭代点表示,我们以常见的 Linear Projection Layer 为例分析,该循环的
阅读全文