忆阻器,存储or存算一体?
Memristor 阵营目前主要四哥们:ReRAM、FeRAM、PCM、MRAM。
存储器件
横向对比其他存储器件,数据如下图:
- Memristor 商用成本高 根据2021年的数据[1], PCM 在四哥们里最接近商用,但在价格、能量、容量上主流 NAND 固态碾压四兄弟。21 年人民币对美元汇率按 6.5 计算,1TB NAND 728 元[2],PCM 1.5 W 元,STT-MRAM 293 W 元,RRAM[3]、FeRAM 则要 5200 W 元。能量上 NAND 是 FeRAM、RRAM、STT-MRAM 的 1/10, PCM 的 1/100。
- 读写速度 唯一优势便是读写速度,Memristor 的读取速度是 NAND Flash 的 1000~10000 倍,写入速度是 100~1000 倍,像是 STT-MRAM 读写时间已经和 DRAM 甚至 SRAM 相差无几了(TSMC ISSCC 2023 的 STT-MRAM[4] 读取时间到了 6 ns)。即使读写速度快,切行速度可能会成为 bottleneck。致钛 TiPlus 5000 (我电脑里现在插着的这款)128K 写入速度能到 3100 MB /s,若按百倍计算,便是 310 GB / s
- Memristor 内部比较 存储上 ReRAM 指标低于其他三兄弟,但 ReRAM 胜在阻态数量高,在模拟存算有它的一席之地
存算一体
将存储和计算耦合会缩小应用场景。相比 CPU,存算的计算是“脑残版”,说存算还是美名化了,落到实物就是乘加。倘若没有 AI 的这波浪潮,存算这个命题是否站得住脚都很难说,更别说存算是下一代架构了。忆阻器存算应用场景主要是 SNN 计算和 ANN 计算赛道,这里只分析 ANN。
Memory Hierarchy 的每个层次都可能带来 Memory Wall。文章看得多的主要是解决 Cache 访存的 SRAM 存算和 NVM 访存的 NVM 存算(DRAM 碍于工艺掌握在少数企业中流片较少)。SRAM 存算和冯诺依曼架构最为接近,也更容易落地。这种数字的设计和 TPU 的 Systolic Array、 带 Cache 的 GPU 设计师出一脉,本质区别也不是很大,在一些细节上卷一些 Trade-off 了。不过 SRAM 存算更像一个存储,如果叠上工艺的 Buff ,还有潜力挖掘的空间。但终究是没有打破冯诺伊曼瓶颈,每次还需要从大容量 DRAM 中 Load 数据(在 ISSCC 上 SRAM 存算和 NVM 存算放在不同的 Session ,这俩玩意不在一个赛道上)。
指路学长 TSMC SRAM 存算的 Survey[5],台湾 Paper 发得是真多,和 Fab 合作就是好啊
那么将 NVM 和计算单元耦合解决冯诺伊曼瓶颈是否能走得通呢?
AI 应用,最大的算力需求首先是训练。天下没有免费的午餐,要让数据 Non Volatile,就得付出额外的延时、能量代价,这一点就卡死 memristor 在训练场景的应用( Memristor 写入延时代价大概是 DRAM 的 10 倍、SRAM 的 100 倍,假想训练时每一个 iter 都 save 一次 checkpoint 那得有多慢 。。。)。去掉推理去啃推理这块骨头了,很可惜 memristor 也不能适用所有推理计算。Memristor 存算可以看作乘加计算,或者硬件矩阵乘法,但执行不了俩个操作数都是运行产生的动态计算(比如 Transformer 中的 QK 乘法、Attention V 乘法),加上容量受限,也不能运行参数量太大的模型,更别说 memristor 还有 accuracy drop 这种问题了。不过,权重复用度高、纯静态计算的卷积操作和 memristor 天生一对,不过也就卷积操作和忆阻器特别符合了
目前非易失存算 Paper 也大多跑跑 VGG、ResNet-20 类网络了,SRAM 存算都能跑 BERT[6] 了出出力啊 memristor!⚗︎·̫⚗︎
较小的容量使得 memristor 取代不了系统中固态的生态位,较高的写入代价使得 Memristor 取代不了系统中 Cache 的生态位。现在的 memristor 类似只读非易失的 ,memristor 只能在边缘侧低容量推理设备里找到自己的定位。一颗 CR 2032 纽扣电池标准容量是 240mAh(3V),一颗ReRAM 存算芯片[7]功耗是 0.136 W(INT8),够持续推理 5 小时,能效比大概是 NVIDIA A100 / Jeston[8] 的 10~50 倍
如果能在手表上运行一个 ResNet-20,你会用来做什么呢?
—— 2024/2/2 于中关村(2024/5/27 修改于清华园)
http://www.i-micronews.com/products/emerging-non-volatile-memory-2021/ ↩︎
现在国产 1TB 只要 300~500 元了,感谢长江存储 ´༥` ↩︎
听老师说现在 Memristor 的成本似乎也降了很多,但找不到数据源比较 ↩︎
MulTCIM: Digital Computing-in-Memory-Based Multimodal Transformer Accelerator With Attention-Token-Bit Hybrid Sparsity https://ieeexplore.ieee.org/document/10226612 ↩︎
A Nonvolatile Al-Edge Processor with 4MB SLC-MLC Hybrid-Mode ReRAM Compute-in-Memory Macro and 51.4-251TOPS/W https://ieeexplore.ieee.org/document/10067610 ↩︎
但是 Jeston 是真的集成了一个 GPU 在边缘的啊,还能视频编解码输入输出图形呢 ૮ ・ﻌ・ა ↩︎