muzinan110

2024年2月25日

摘要：架构 - Queue - Queue是容纳一组PodGroup的队列，也是PodGroup获取集群资源的划分依据。 - PodGroup - PodGroup是一组强关联的pod，对应批处理workload。 - VolcanoJob - VolcanoJob（vcjob）是自定义的Job资源类型，阅读全文

posted @ 2024-02-25 09:31 muzinan110 阅读(768) 评论(0) 推荐(0) 编辑

Kubeflow架构

摘要： Kubeflow核心组件 notebook（JupyterHub） - 大多数项目的第一步是某种形式的原型设计和实验。Kubeflow用于原型设计和实验的工具是JupyterHub（https://jupyter.org/hub），这是一个多用户中心，可以生成、管理和代理单用户Jupyter not 阅读全文

posted @ 2024-02-25 09:21 muzinan110 阅读(323) 评论(0) 推荐(0) 编辑

TensorFlow记录

摘要： TensorFlow，这是个很形象的比喻，意思是张量(Tensor)在神经网络中流动(Flow)。在数学中，张量是一种几何实体(对应的有一个概念叫矢量)，广义上可以表示任何形式的数据。在NumPy等数学计算库或TensorFlow等深度学习库中，我们通常使用多维数组来描述张量，所以不能叫做矩阵，阅读全文

posted @ 2024-02-25 09:17 muzinan110 阅读(33) 评论(0) 推荐(0) 编辑

Horovod架构

摘要：架构 Horovod主要由数据通信层、通信控制层、深度学习框架接口层、启动层四部分组成。其中启动层通过horovodrun或mpirun启动训练进程，之后每个训练进程通过调用TensorFLow、PyTorch、MXNet等框架（python train.py）进行单个结点的数据输入、参数更新，在每阅读全文

posted @ 2024-02-25 09:12 muzinan110 阅读(71) 评论(0) 推荐(0) 编辑

Fluid 架构

摘要： Fluid 系统架构 Fluid 是构建在 K8s 上的系统，对原生 K8s 具备良好的兼容性，无需修改任意代码。如上图所示，用户需要定义两个 CRD，分别是 Dataset 和 Runtime。Dataset 是数据集的通用定义，这是我们提供的 K8s 资源对象，需要写 YAML 文件来定义数据集阅读全文

posted @ 2024-02-25 09:07 muzinan110 阅读(280) 评论(0) 推荐(0) 编辑

RDMA网络

摘要：在Kubernetes的标准框架里，容器是只有1个网络平面的。即容器里面，只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络，还是underlay实现容器网络直通，其目的都是解决容器网络“通与不通”的问题。而大规模AI集群中，百亿、千亿级别参数量的大模型通常需要做分布式训练，这时参阅读全文

posted @ 2024-02-25 07:13 muzinan110 阅读(227) 评论(0) 推荐(0) 编辑

GPU管理

摘要：工作原理通过扩展的方式管理 GPU 资源 Kubernetes 本身是通过插件扩展的机制来管理 GPU 资源的，具体来说这里有两个独立的内部机制。第一个是 Extend Resources，允许用户自定义资源名称。而该资源的度量是整数级别，这样做的目的在于通过一个通用的模式支持不同的异构设备，包阅读全文

posted @ 2024-02-25 06:51 muzinan110 阅读(80) 评论(0) 推荐(0) 编辑

2024年2月24日

python 内存优化

摘要： Python 内存管理层次：众所周知，计算机硬件资源由操作系统负责管理，内存资源也不例外。应用程序通过系统调用向操作系统申请内存，而 C 库函数则进一步将系统调用封装成通用的内存分配器，并提供了 malloc 系列函数。 C 库函数实现的通用目的内存管理器是一个重要的分水岭，即内存管理层次阅读全文

posted @ 2024-02-24 21:19 muzinan110 阅读(22) 评论(0) 推荐(0) 编辑

python GIL 全局锁

摘要： GIL 由来我们先思考一个问题：我们在前面介绍的 list 、 dict 等内建对象是线程安全的吗？在 Python 层面，list 、dict 等内建对象是线程安全的，这是最基本的常识。研究 list、dict 等内建对象源码时，我们并没有看到任何互斥锁的痕迹，这多少有点令人意外。以阅读全文

posted @ 2024-02-24 21:14 muzinan110 阅读(14) 评论(0) 推荐(0) 编辑

python dict 哈希表

摘要：哈希值 Python 内置函数 hash 返回对象哈希值，哈希表依赖哈希值索引元素：根据哈希表性质，键对象必须满足以下两个条件，否则哈希表便不能正常工作：哈希值在对象整个生命周期内不能改变；可比较，且比较相等的对象哈希值必须相同；满足这两个条件的对象便是可哈希 ( hasha 阅读全文

posted @ 2024-02-24 21:12 muzinan110 阅读(99) 评论(0) 推荐(0) 编辑