单核架构 - 随笔分类 - DevilXXL

并行计算时代下的 Cache

摘要：熟悉的 AI 加速器领域 on-chip buffer 往往使用 scratchpad memory，对传统 cache 结构接触不多。但 cache 可谓是传统 CPU 架构中最最基础和重要的一个组件，从 cache 的设计思想上或许可以借鉴学习 AI 的访存问题。 SRAM + 映射 = Cac 阅读全文

posted @ 2025-05-02 16:28 DevilXXL 阅读(138) 评论(0) 推荐(0)

量化存储墙（二）：数据流架构优化的瓶颈

摘要：先前 blog [1] 从能耗角度量化了现在计算问题本质是访存问题，同时提到由于算法和工艺的限制优化应当存在一个上限。这篇 blog 将结合具体 AI workload 探讨这个边界。访存优化归类各种加速工作优化核心在于将更多的操作放在底层低密度、低代价的 on-chip memory ，以避开阅读全文

posted @ 2025-03-08 16:42 DevilXXL 阅读(331) 评论(0) 推荐(0)

量化存储墙（一）：功耗优化空间

摘要：CMOS 计算和存储工艺发展步调并不一致，SOTA Memory 最高频率的远远低于 SOTA CMOS。如下图所示[1]：除了性能，能耗上存储也远远高于计算能耗，存储能耗受诸多譬如大小、宽度等参数影响，但不妨粗略进行数量级估计计算，如图 2014 年 ISSCC 经典的数据 45 nm 0.9V 阅读全文

posted @ 2024-11-22 17:01 DevilXXL 阅读(412) 评论(0) 推荐(0)

ZigZag ：nested loop 的教科书

摘要：ZigZag 在 PE array-memory hierarchy level 上对 nested-loop based 算子数据部署设计策略进行详细分析。文章作者来自鲁汶 MICAS [1]实验室。软硬件建模软件上只涉及 MAC-based 的网络算子（Linear、Convolutiona 阅读全文

posted @ 2024-08-04 18:18 DevilXXL 阅读(225) 评论(0) 推荐(0)

Polyhedral Model: DNN Nested Loop 的实现模型

摘要：循环是迭代空间的一个点使用嵌套循环（Nested Loop）抽象不同的 DNN 乘加算子[1]，使用多面体数学模型（Polyhedral Model）抽象循环的变换优化。多面体模型里循环可以用迭代向量或者迭代点表示，我们以常见的 Linear Projection Layer 为例分析，该循环的阅读全文

posted @ 2024-05-23 23:20 DevilXXL 阅读(302) 评论(0) 推荐(0)

懒猫后花园

哦，这该死的代码！

随笔分类 - 单核架构

公告