服务器硬件层次架构
服务器硬件层次架构
MLU服务器层次结构
MLU服务器通过PCIe与主机交换数据。具有多个卡的MLU服务器层次结构系统包括五个级别:服务器级别,卡级别,芯片级别,群集级别和核心级别,如图。
- 级别0是服务器级别,由几个CPU控制单元,本地DDR存储单元和几个通过PCIe总线互连的MLU卡作为服务器级别的计算单元组成。
- 级别1是卡级别。每个MLU卡均包含本地DDR存储单元和作为计算单元的芯片。
- 级别2是芯片级别。每个芯片由几个群集组成,作为计算单元。
- 级别3是群集级别。每个群集由几个加速核心作为控制和计算单元,并由共享内存作为存储单元。
- 级别4是核心级别。每个加速核心均由本地存储和本地处理单元阵列组成。
MLU服务器层次结构能够通过增加卡,芯片,集群或内核的数量来方便地提高整个系统的计算能力。
MLU 270内存层次结构
下图显示了MLU270单通道的存储器层次结构。每个核主要由功能单元(FU),通用寄存器组(GPR),神经元存储单元(Neural-RAM,NRAM)和权重存储单元(Weight-RAM,WRAM)组成。此外,四个物理核心构成一个集群。每个MLU270具有4个群集。每个内核都有一个单独的内存,称为Local-DRAM(LDRAM)。如图,一个群集中的四个内核共享芯片上的共享RAM(SRAM)。此外,所有内核都可以访问DDR上称为Global-DRAMs(GDRAM)的全局共享内存。LDRAM,GDRAM和片上存储通道还具有1级缓存(Last Level Cache,LLC),该缓存主要用于缓冲多个内核之间的共享只读数据,从而加快了内存访问速度。当BANG C程序使用指向GDRAM空间的常量指针执行内存访问时,CNCC将优化内存访问以启用LLC。
MLU270内存层次结构
人工智能芯片与自动驾驶
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2020-05-28 TensorRT-优化-原理
2020-05-28 TensorRT-安装-使用
2020-05-28 TensorRT 加速性能分析
2020-05-28 GPU加速:宽深度推理
2020-05-28 NVIDIA TensorRT:可编程推理加速器
2020-05-28 寒武纪端云一体人工智能开发平台整体架构
2020-05-28 寒武纪人工智能开发平台