随笔分类 -  单核架构

摘要:先前 blog [1] 从能耗角度量化了现在计算问题本质是访存问题,同时提到由于算法和工艺的限制优化应当存在一个上限。这篇 blog 将结合具体 AI workload 探讨这个边界。 访存优化归类 各种加速工作优化核心在于将更多的操作放在底层低密度、低代价的 on-chip memory ,以避开 阅读全文
posted @ 2025-03-08 16:42 DevilXXL 阅读(61) 评论(0) 推荐(0) 编辑
摘要:CMOS 计算和存储工艺发展步调并不一致,SOTA Memory 最高频率的远远低于 SOTA CMOS。如下图所示[1]: 除了性能,能耗上存储也远远高于计算能耗,存储能耗受诸多譬如大小、宽度等参数影响,但不妨粗略进行数量级估计计算,如图 2014 年 ISSCC 经典的数据 45 nm 0.9V 阅读全文
posted @ 2024-11-22 17:01 DevilXXL 阅读(168) 评论(0) 推荐(0) 编辑
摘要:ZigZag 在 PE array-memory hierarchy level 上对 nested-loop based 算子数据部署设计策略进行详细分析。文章作者来自鲁汶 MICAS [1]实验室。 软硬件建模 软件上只涉及 MAC-based 的网络算子(Linear、Convolutiona 阅读全文
posted @ 2024-08-04 18:18 DevilXXL 阅读(101) 评论(0) 推荐(0) 编辑
摘要:循环是迭代空间的一个点 使用嵌套循环(Nested Loop)抽象不同的 DNN 乘加算子[1],使用多面体数学模型(Polyhedral Model)抽象循环的变换优化。 多面体模型里循环可以用迭代向量或者迭代点表示,我们以常见的 Linear Projection Layer 为例分析,该循环的 阅读全文
posted @ 2024-05-23 23:20 DevilXXL 阅读(188) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示