摘要: Vertical 从 Volta 引入 SMEM 总共 3 层存储结构。纵向结构上,传统架构仅对用户暴露 2 层存储交互,而随着 Hopper 添加 st.async ,NVIDIA GPU 完成暴露 3 层存储结构的双向通信接口,即 \(2\times C_{3}^{2}=6\) 一共 6 种指令 阅读全文
posted @ 2025-09-14 16:30 DevilXXL 阅读(40) 评论(0) 推荐(0)
摘要: 调研三个系列: 数据中心、图形卡 RTX 以及边缘 Jetson 系列,数据来自 LLM 整理。 片上 buffer 存储容量图表: OPS- Off-chip Bandwidth 配比,OPS 选择各种精度中最高 dense OPS: 能效分析,OPS 选择各种精度中最高 dense OPS: 阅读全文
posted @ 2025-09-14 16:29 DevilXXL 阅读(25) 评论(0) 推荐(0)
摘要: 回到宿舍,天花板上又是密密麻麻的水珠…… 明明已按照宿管建议打开空调,前几天不凝,怎么今天又凝了? 已知现象 今日清水湾气温约在 27-29 °C 之间,相对湿度显著偏高,尤其在 28 °C 时,湿度甚至超过90%[1] Tower A -Room C 卧室布局如图,客厅温度 > 室内温度 空调窗机 阅读全文
posted @ 2025-09-09 20:25 DevilXXL 阅读(118) 评论(0) 推荐(0)
摘要: zhihu-title: 学术流片复盘(二):idea、流片到点亮 zhihu-topics: - IC tags: - zhihu zhihu-link: https://zhuanlan.zhihu.com/p/1947393221677282583 zhihu-created-at: 2025 阅读全文
posted @ 2025-09-05 18:19 DevilXXL 阅读(217) 评论(0) 推荐(0)
摘要: 数据来源自 wiki 厂商 工艺节点名称 晶体管密度 (MTr/mm²) SRAM bit-cell size (μm²) 发布年份 Samsung 7 LPP 95.08–100.59 0.0262 2018 Samsung 6 LPP Unknown Unknown 2020 Samsung 5 阅读全文
posted @ 2025-08-09 20:02 DevilXXL 阅读(198) 评论(0) 推荐(0)
摘要: 之前 blog [1] 十分感性地总结了“半导体科研工程导向强”。“工程”语境相对于“科学”而言。那么何为“科学”,何为“工程”?“科学是认识世界,工程是改变世界”,即所谓工程导向即不光要考虑技术原理、还要考虑可行性,再升华点便是需要同时思考供给和需求侧特点。本文尝试感性地构建一个量化分析框架解释这 阅读全文
posted @ 2025-08-09 16:52 DevilXXL 阅读(92) 评论(0) 推荐(0)
摘要: 范畴论概念辨析 范畴 (Category) 包含对象(Object)和态射,对比集合概念,范畴不仅定义了静态的成员,也定义了成员之间的动态交互关系。不是任意对象和态射都能称为范畴,态射中至少包含一个单位态射,任何对象经过该态射得到本身。 不仅态射可以让对象发生变换,态射本身也可以看作一个对象处理进行 阅读全文
posted @ 2025-07-31 10:24 DevilXXL 阅读(130) 评论(0) 推荐(0)
摘要: 什么时候需要并发? 由于片上buffer 宝贵,且不同程序中的同一个计算操作对存储开销具有动态性,同一个程序中不同计算操作的先后顺序具有动态性,多个计算单元往往共享同一块片上 buffer 资源以便提高 buffer 利用率以及交换上下文数据。多对一便存在仲裁竞争等问题。 最简单的 baseline 阅读全文
posted @ 2025-07-18 22:40 DevilXXL 阅读(32) 评论(0) 推荐(0)
摘要: zhihu-title: GPGPU? NPU? zhihu-topics: - GPGPU - NPU zhihu-link: https://zhuanlan.zhihu.com/p/1926295995316172022 zhihu-created-at: 2025-08-06 17:26 起 阅读全文
posted @ 2025-07-09 15:19 DevilXXL 阅读(115) 评论(0) 推荐(0)
摘要: 整形算术单元容易预测实现硬件行为,而浮点单元由于 (1)不遵守结合律(2)rounding 模式和特殊情况处理(subnormal、nan、-0、+inf、-inf) 往往更难预测硬件计算结果。神经网络中运算 MAC 运算累加超长数组同时涉及 (1) 和 (2) 问题,不满足交换律使得遍历保证 10 阅读全文
posted @ 2025-07-07 11:23 DevilXXL 阅读(129) 评论(0) 推荐(0)