摘要: The Lifetim of Hello Program 这一章主要是通过介绍 helloworld 这个程序的生命周期,对计算机系统的主要概念做了一个概述。 hello 程序的生命周期是从一个高级 C 语言程序开始的,因为这种形式能够被人读懂。然而,为了在系统上运行 hello.c 程序,每条 C 阅读全文
posted @ 2025-02-16 12:09 松—松 阅读(13) 评论(0) 推荐(0)
摘要: 开始学习CS的课程,感谢有大佬做了中文版的讲解。下面也先对cs这本书做一下简要梳理: Chapter1. A Tour of Computer System (计算机系统漫游) 第一章以'helloworld'程序的生命周期为线索,对计算机的主要系统概念做了一个整体的介绍。 Part I. Prog 阅读全文
posted @ 2025-02-10 21:11 松—松 阅读(4) 评论(0) 推荐(0)
摘要: 第十三章 拷贝控制 拷贝控制操作(copy control): 拷贝构造函数(copy constructor) 拷贝赋值运算符(copy-assignment operator) 移动构造函数(move constructor) 移动赋值函数(move-assignement operator) 阅读全文
posted @ 2025-01-22 17:23 松—松 阅读(5) 评论(0) 推荐(0)
摘要: NCCL 的原理 NCCL是专为NVIDIA GPU设计的集合通信库,它和 MPI 一样支持多种高效的集体通信操作,如广播、归约、全收集等。通信的实现方式分为两种类型:机器内通信与机器间通信。 机器内通信: GPU Direct Shared Memory(2010年6月引入):共享内存(QPI/U 阅读全文
posted @ 2025-01-06 17:52 松—松 阅读(239) 评论(0) 推荐(0)
摘要: reference 计算机体系结构:量化研究方法 阅读全文
posted @ 2025-01-04 15:24 松—松 阅读(5) 评论(0) 推荐(0)
摘要: reference (现代处理器设计 - 超标量处理器基础)[https://github.com/chaos198800/xian-dai-chu-li-qi-she-ji chao-biao-liang-chu-li-qi-ji-chu-PDF?tab=readme-ov-file] 阅读全文
posted @ 2025-01-04 15:10 松—松 阅读(9) 评论(0) 推荐(0)
摘要: 1. 前言 大模型训练离不开集合通信 大模型分布式训练往往需要上千乃至上万 GPU 卡进行超大规模并行训练,是典型的计算密集型和通信密集型场景。 在真实的场景中,为了高效的训练,我们一般采用多种并行策略混合的方式。常见的包括数据并行,流水并行,张量并行,序列并行,专家并行,其中张量并行和流水线并行都 阅读全文
posted @ 2024-12-29 14:05 松—松 阅读(158) 评论(0) 推荐(0)
摘要: 1. ROCm简介 图 1:ROCm 软件栈的组成部分 ROCm是一个开源堆栈,主要由开源软件(OSS)组成,设计用于图形处理单元(GPU)计算。 ROCm由一组驱动程序、开发工具和api组成,支持从低级内核到最终用户应用程序的GPU编程。使用ROCm,您可以自定义GPU软件以满足您的特定需求。您可 阅读全文
posted @ 2024-12-21 16:21 松—松 阅读(494) 评论(0) 推荐(0)
摘要: 本教程介绍 Linux 命令行 Bash 的基本用法和脚本编程。 referennce [Bash 脚本教程]https://www.bookstack.cn/read/bash-tutorial/README.md) shell 脚本案例 Bash 脚本教程中文 阅读全文
posted @ 2024-12-09 17:33 松—松 阅读(10) 评论(0) 推荐(0)
摘要: # 阅读全文
posted @ 2024-11-28 18:03 松—松 阅读(22) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.