上一页 1 2 3 4 5 6 7 8 9 10 ··· 32 下一页
摘要: 架构 - Queue - Queue是容纳一组PodGroup的队列,也是PodGroup获取集群资源的划分依据。 - PodGroup - PodGroup是一组强关联的pod,对应批处理workload。 - VolcanoJob - VolcanoJob(vcjob)是自定义的Job资源类型, 阅读全文
posted @ 2024-02-25 09:31 muzinan110 阅读(768) 评论(0) 推荐(0) 编辑
摘要: Kubeflow核心组件 notebook(JupyterHub) - 大多数项目的第一步是某种形式的原型设计和实验。Kubeflow用于原型设计和实验的工具是JupyterHub(https://jupyter.org/hub),这是一个多用户中心,可以生成、管理和代理单用户Jupyter not 阅读全文
posted @ 2024-02-25 09:21 muzinan110 阅读(323) 评论(0) 推荐(0) 编辑
摘要: TensorFlow,这是个很形象的比喻,意思是 张量(Tensor)在神经网络中流动(Flow)。 在数学中,张量是一种几何实体(对应的有一个概念叫矢量),广义上可以表示任何形式的数据。在NumPy等数学计算库或TensorFlow等深度学习库中,我们通常使用多维数组来描述张量,所以不能叫做矩阵, 阅读全文
posted @ 2024-02-25 09:17 muzinan110 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 架构 Horovod主要由数据通信层、通信控制层、深度学习框架接口层、启动层四部分组成。其中启动层通过horovodrun或mpirun启动训练进程,之后每个训练进程通过调用TensorFLow、PyTorch、MXNet等框架(python train.py)进行单个结点的数据输入、参数更新,在每 阅读全文
posted @ 2024-02-25 09:12 muzinan110 阅读(71) 评论(0) 推荐(0) 编辑
摘要: Fluid 系统架构 Fluid 是构建在 K8s 上的系统,对原生 K8s 具备良好的兼容性,无需修改任意代码。如上图所示,用户需要定义两个 CRD,分别是 Dataset 和 Runtime。Dataset 是数据集的通用定义,这是我们提供的 K8s 资源对象,需要写 YAML 文件来定义数据集 阅读全文
posted @ 2024-02-25 09:07 muzinan110 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。 而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参 阅读全文
posted @ 2024-02-25 07:13 muzinan110 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 工作原理 通过扩展的方式管理 GPU 资源 Kubernetes 本身是通过插件扩展的机制来管理 GPU 资源的,具体来说这里有两个独立的内部机制。 第一个是 Extend Resources,允许用户自定义资源名称。而该资源的度量是整数级别,这样做的目的在于通过一个通用的模式支持不同的异构设备,包 阅读全文
posted @ 2024-02-25 06:51 muzinan110 阅读(80) 评论(0) 推荐(0) 编辑
摘要: Python 内存管理层次: 众所周知,计算机硬件资源由操作系统负责管理,内存资源也不例外。应用程序通过 系统调用 向操作系统申请内存,而 C 库函数则进一步将系统调用封装成通用的 内存分配器 ,并提供了 malloc 系列函数。 C 库函数实现的通用目的内存管理器是一个重要的分水岭,即内存管理层次 阅读全文
posted @ 2024-02-24 21:19 muzinan110 阅读(22) 评论(0) 推荐(0) 编辑
摘要: GIL 由来 我们先思考一个问题:我们在前面介绍的 list 、 dict 等内建对象是 线程安全 的吗? 在 Python 层面,list 、dict 等内建对象是线程安全的,这是最基本的常识。研究 list、dict 等内建对象源码时,我们并没有看到任何 互斥锁 的痕迹,这多少有点令人意外。以  阅读全文
posted @ 2024-02-24 21:14 muzinan110 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 哈希值 Python 内置函数 hash 返回对象 哈希值 ,哈希表 依赖 哈希值 索引元素: 根据哈希表性质, 键对象 必须满足以下两个条件,否则哈希表便不能正常工作: 哈希值在对象整个生命周期内不能改变; 可比较,且比较相等的对象哈希值必须相同; 满足这两个条件的对象便是 可哈希 ( hasha 阅读全文
posted @ 2024-02-24 21:12 muzinan110 阅读(99) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 32 下一页
点击右上角即可分享
微信分享提示