忆阻器,存储or存算一体?

Memristor 阵营目前主要四哥们:ReRAM、FeRAM、PCM、MRAM。

存储器件

横向对比其他存储器件,数据如下图:

非易失器件对比

  • Memristor 商用成本高 根据2021年的数据[1], PCM 在四哥们里最接近商用,但在价格、能量、容量上主流 NAND 固态碾压四兄弟。21 年人民币对美元汇率按 6.5 计算,1TB NAND 728 元[2],PCM 1.5 W 元,STT-MRAM 293 W 元,RRAM[3]、FeRAM 则要 5200 W 元。能量上 NAND 是 FeRAM、RRAM、STT-MRAM 的 1/10, PCM 的 1/100。
  • 读写速度 唯一优势便是读写速度,Memristor 的读取速度是 NAND Flash 的 1000~10000 倍,写入速度是 100~1000 倍,像是 STT-MRAM 读写时间已经和 DRAM 甚至 SRAM 相差无几了(TSMC ISSCC 2023 的 STT-MRAM[4] 读取时间到了 6 ns)。即使读写速度快,切行速度可能会成为 bottleneck。致钛 TiPlus 5000 (我电脑里现在插着的这款)128K 写入速度能到 3100 MB /s,若按百倍计算,便是 310 GB / s
  • Memristor 内部比较 存储上 ReRAM 指标低于其他三兄弟,但 ReRAM 胜在阻态数量高,在模拟存算有它的一席之地

存算一体

将存储和计算耦合会缩小应用场景。相比 CPU,存算的计算是“脑残版”,说存算还是美名化了,落到实物就是乘加。倘若没有 AI 的这波浪潮,存算这个命题是否站得住脚都很难说,更别说存算是下一代架构了。忆阻器存算应用场景主要是 SNN 计算和 ANN 计算赛道,这里只分析 ANN。

Bottle-neck of Memory Hierarchy

Memory Hierarchy 的每个层次都可能带来 Memory Wall。文章看得多的主要是解决 Cache 访存的 SRAM 存算和 NVM 访存的 NVM 存算(DRAM 碍于工艺掌握在少数企业中流片较少)。SRAM 存算和冯诺依曼架构最为接近,也更容易落地。这种数字的设计和 TPU 的 Systolic Array、 带 Cache 的 GPU 设计师出一脉,本质区别也不是很大,在一些细节上卷一些 Trade-off 了。不过 SRAM 存算更像一个存储,如果叠上工艺的 Buff ,还有潜力挖掘的空间。但终究是没有打破冯诺伊曼瓶颈,每次还需要从大容量 DRAM 中 Load 数据(在 ISSCC 上 SRAM 存算和 NVM 存算放在不同的 Session ,这俩玩意不在一个赛道上)。

指路学长 TSMC SRAM 存算的 Survey[5],台湾 Paper 发得是真多,和 Fab 合作就是好啊

那么将 NVM 和计算单元耦合解决冯诺伊曼瓶颈是否能走得通呢?

AI 应用,最大的算力需求首先是训练。天下没有免费的午餐,要让数据 Non Volatile,就得付出额外的延时、能量代价,这一点就卡死 memristor 在训练场景的应用( Memristor 写入延时代价大概是 DRAM 的 10 倍、SRAM 的 100 倍,假想训练时每一个 iter 都 save 一次 checkpoint 那得有多慢 。。。)。去掉推理去啃推理这块骨头了,很可惜 memristor 也不能适用所有推理计算。Memristor 存算可以看作乘加计算,或者硬件矩阵乘法,但执行不了俩个操作数都是运行产生的动态计算(比如 Transformer 中的 QK 乘法、Attention V 乘法),加上容量受限,也不能运行参数量太大的模型,更别说 memristor 还有 accuracy drop 这种问题了。不过,权重复用度高、纯静态计算的卷积操作和 memristor 天生一对,不过也就卷积操作和忆阻器特别符合了

目前非易失存算 Paper 也大多跑跑 VGG、ResNet-20 类网络了,SRAM 存算都能跑 BERT[6] 了出出力啊 memristor!⚗︎·̫⚗︎

较小的容量使得 memristor 取代不了系统中固态的生态位,较高的写入代价使得 Memristor 取代不了系统中 Cache 的生态位。现在的 memristor 类似只读非易失的 ,memristor 只能在边缘侧低容量推理设备里找到自己的定位。一颗 CR 2032 纽扣电池标准容量是 240mAh(3V),一颗ReRAM 存算芯片[7]功耗是 0.136 W(INT8),够持续推理 5 小时,能效比大概是 NVIDIA A100 / Jeston[8] 的 10~50 倍

如果能在手表上运行一个 ResNet-20,你会用来做什么呢?

—— 2024/2/2 于中关村(2024/5/27 修改于清华园)


  1. http://www.i-micronews.com/products/emerging-non-volatile-memory-2021/ ↩︎

  2. 现在国产 1TB 只要 300~500 元了,感谢长江存储 ´༥` ↩︎

  3. 听老师说现在 Memristor 的成本似乎也降了很多,但找不到数据源比较 ↩︎

  4. https://ieeexplore.ieee.org/document/10067837 ↩︎

  5. https://www.cnblogs.com/sasasatori/p/17973415 ↩︎

  6. MulTCIM: Digital Computing-in-Memory-Based Multimodal Transformer Accelerator With Attention-Token-Bit Hybrid Sparsity https://ieeexplore.ieee.org/document/10226612 ↩︎

  7. A Nonvolatile Al-Edge Processor with 4MB SLC-MLC Hybrid-Mode ReRAM Compute-in-Memory Macro and 51.4-251TOPS/W https://ieeexplore.ieee.org/document/10067610 ↩︎

  8. 但是 Jeston 是真的集成了一个 GPU 在边缘的啊,还能视频编解码输入输出图形呢 ૮ ・ﻌ・ა ↩︎

posted @ 2024-02-02 01:54  DevilXXL  阅读(156)  评论(1编辑  收藏  举报