异构计算编程

异构计算编程

异构计算系统通常由通用处理器和许多特定于域的处理器组成:通用处理器作为控制设备(称为主机),用于复杂的控制和调度;特定于域的处理器作为子设备(称为MLU),用于大规模并行计算和特定于域的计算任务。主机和MLU合作完成计算任务。对于异构计算系统,原始的同构并行编程模型不再适用。因此,异构并行编程模型在学术界和工业界受到越来越多的关注。本文简要介绍了MLU异构编程。

编译链接过程

异构编程包括Host和MLU。对于主机,主要包括设备获取,数据/参数准备,执行流创建,任务描述,内核启动,输出获取等。Entry函数是MLU上的程序项,可以调用MLU函数。MLU程序使用异构编程模型的C / C ++语言扩展。二进制文件由MLU的指定编译器编译。

 

 

 MLU异构程序的编译和链接过程

MLU异构程序如图2所示。MLU异构程序。采用单独的编程方法,即主机程序和MLU程序位于不同的文件(即主机文件和内核文件)中。Host程序和MLU程序的异构并行程序需要由编译器进行编译。

主机程序是常见的C / C ++程序,用户可以使用任何C / C ++编译器,例如GCC,CLANG等。MLU程序是基于C / C ++语言的扩展,可以通过以下方式进行编译: Cambricon提供的指定编译器CNCC。主机链接器通过链接主机和MLU中的两个目标文件,Runtime库和其他文件来形成可执行程序。

平行模型

执行模型

启动执行任务时,MLU270根据taskDimX以1个单元的并行度发出并执行指令,即最小并行粒度为taskDimX = clusterDim * coreDim。对于MLU270,coreDim = 4,用户可以通过指定Union类型来控制并行最小粒度taskDimX。下表中显示了此限制。当用户指定联合类型时,如果指定的taskDimX不是clusterDim * coreDim的正整数倍,则CNRTRuntime将引发错误。

限制MLU的软件和硬件并行大小

 

 

 

 

  MLU270并行执行模型

如图所示,主机上有三种不同的内核功能,这些功能被传输到MLU270设备以执行。

 

 

posted @   吴建明wujianming  阅读(470)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2020-05-28 TensorRT-优化-原理
2020-05-28 TensorRT-安装-使用
2020-05-28 TensorRT 加速性能分析
2020-05-28 GPU加速:宽深度推理
2020-05-28 NVIDIA TensorRT:可编程推理加速器
2020-05-28 寒武纪端云一体人工智能开发平台整体架构
2020-05-28 寒武纪人工智能开发平台
点击右上角即可分享
微信分享提示