寒武纪加速推理与训练智能卡分析

思元370芯片

基于7nm制程工艺，思元370是寒武纪首款采用chiplet（芯粒）技术的AI芯片，集成了390亿个晶体管，最大算力高达256TOPS(INT8)，是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03，思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术，在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台，新增推理加速引擎MagicMind，实现训推一体，大幅提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

先进chiplet技术

寒武纪首次采用chiplet技术将2颗AI计算芯粒封装为一颗AI芯片，通过不同芯粒组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。

MLUarch03芯片架构

新一代张量运算单元，内置Supercharger模块大幅提升各类卷积效率；采用全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间。

MagicMind推理加速引擎

业内首个基于MLIR图编译技术达到商业化部署能力的推理引擎。用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系产品上，并获得颇具竞争力的性能。

训推一体软件开发平台

寒武纪基础软件平台整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将MagicMind和人工智能框架Tensorflow，Pytorch深度融合，实现训推一体。

低功耗高带宽LPDDR5内存

思元370芯片在业内率先支持LPDDR5内存，高带宽且低功耗，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍，可在板卡有限的功耗范围内给AI芯片分配更多的能源，输出更强大的算力。

新一代编解码单元

全新视频图像编解码单元，可支持132路1080p视频解码，支持10路8K视频解码。视频编码时，在相同图像质量（全高清视频PSNR）的情况下比上一代产品节省42%带宽，有效降低带宽成本。

MLU-Link多芯互联技术

MLU-Link多芯互联技术，搭载于寒武纪思元370芯片，为每颗芯片提供200GB/s的额外跨芯片直接通讯能力。在思元370应对多卡多芯并行任务时，提供更高效的并行效率。

为AI浮点计算优化

思元370芯片具备完整的张量浮点运算单元，可支持AI加速中繁重的FP32、FP16或BF16计算任务，让计算的选择变得更简单。

思元370系列板卡与业内主流GPU性能对比

*测试环境：MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据：ResNet-50来自于相关产品官网，Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。

了解寒武纪思元370智能加速卡

思元290寒武纪首颗AI训练芯片

寒武纪思元290芯片，采用创新性的MLUv02扩展架构，使用台积电7nm先进制程工艺制造，在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新， MLU-Link™多芯互联技术，提供高带宽多链接的互连解决方案；HBM2内存提供AI训练中所需的高内存带宽；vMLU帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助AI计算应对性能、效率、扩展性、可靠性等多样化的挑战。