12 2024 档案
摘要:1. 前言 大模型训练离不开集合通信 大模型分布式训练往往需要上千乃至上万 GPU 卡进行超大规模并行训练,是典型的计算密集型和通信密集型场景。 在真实的场景中,为了高效的训练,我们一般采用多种并行策略混合的方式。常见的包括数据并行,流水并行,张量并行,序列并行,专家并行,其中张量并行和流水线并行都
阅读全文
摘要:1. ROCm简介 图 1:ROCm 软件栈的组成部分 ROCm是一个开源堆栈,主要由开源软件(OSS)组成,设计用于图形处理单元(GPU)计算。 ROCm由一组驱动程序、开发工具和api组成,支持从低级内核到最终用户应用程序的GPU编程。使用ROCm,您可以自定义GPU软件以满足您的特定需求。您可
阅读全文
摘要:本教程介绍 Linux 命令行 Bash 的基本用法和脚本编程。 referennce [Bash 脚本教程]https://www.bookstack.cn/read/bash-tutorial/README.md) shell 脚本案例 Bash 脚本教程中文
阅读全文

浙公网安备 33010602011771号