Hotchips 33 学习:三星电子HBM2-PIM
问题提出,也就是说内存和处理器之间的带宽永远都会存在,刚不过就躲一下,直接在内存进行计算。
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000013585-1421531629.png)
Aquabolt已经是三星电子的HBM2的内存,Aquabolt-XL是基于HBM2构建了PIM的产品;是这种形式产品的第一代;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000026908-25909221.png)
上面图中的比较是HBM2和DRAM的比较,不是HBM2-PIM和HBM2的比较,第一次都看错了;下面这个才是:
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000043444-760426186.png)
下面介绍了HBM2产品的位宽和带宽的情况
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000102828-2036809799.png)
大的架构上看就是实现最大程度的复用
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000126191-232747538.png)
微观的架构看的话,PIM分为三个部分,SIMD的运算器,寄存器和控制器;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000136399-188767682.png)
PIM虽小,五脏俱全,有自己的ISA,可以实现,算术运算,数据传输运算,流程控制运算;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000146522-1280093555.png)
PIM的工作模式分为三种:单bank模式,全bank模式,全bank-PIM模式;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000202007-275088767.png)
PIM上面是ISA,ISA上面就是Kernel,Kernel上面是应用,因此需要改变的是驱动文件,代数库,最终是框架函数;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000216154-343341910.png)
下面是芯片的工程上是怎么做的系统集成,8Hi的Die,其中四个是DRAM Die,另外四个是PIM-DRAM Die;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000227085-968846029.png)
实测的性能的提升还是比较明显的
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000241551-541960404.png)
虽然功耗分解上看是略微有些上升
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000300409-429137170.png)
又是一个实测的案例,证明在业务上来看,时间更短,功耗更低
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000314218-426721346.png)
实测时候的配置
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000337878-1103905604.png)
实测的结果确实有不小的提升
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000351823-707633639.png)
答疑,应用程序修改较小,正在推动标准,暂时不兼容ECC但是后面争取兼容;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000408541-1897027256.png)
下面的加速DIMM,AXDIMM就是概念产品了,就是在DIMM上添加一个Buffer,提高带宽,减少数据传输降低功耗;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000429293-510132750.png)
POC的系统也已经测过了
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000443910-1821356063.png)
放眼未来,支持更多的DRAM类型,提高性能,降低功耗,推进标准等等;
![](https://img2020.cnblogs.com/blog/746059/202108/746059-20210825000453578-1508786843.png)
一个问题就是如何保持一致性,答案是不行;
Q: How does PIM manage coherence with host?
A: memory vision will be offload will not be cached, but those applications have low data reusability
参考文献:
万事走心 精益求美