使用 NVIDIA Container Toolkit 和 Docker 配置 GPU 深度学习环境

在深度学习开发中，充分利用 GPU 资源是提高模型训练效率的关键。本文将详细介绍如何安装 NVIDIA Container Toolkit，并配置 Docker 容器以利用 GPU 进行深度学习训练。我们将结合 NVIDIA Container Toolkit 的安装和 Docker 容器的配置，确保你拥有一个高效的 GPU 开发环境。

1. 安装 NVIDIA Container Toolkit

NVIDIA Container Toolkit 是 NVIDIA 为 Docker 提供的一个插件，允许容器充分利用 GPU 加速。以下步骤将指导你如何使用 apt 包管理器来安装它。

1.1 配置生产仓库

首先，添加 NVIDIA Container Toolkit 的仓库密钥和源列表：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

1.2 可选：启用实验性包

如果你希望安装 NVIDIA Container Toolkit 的实验性功能，可以运行以下命令：

sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list

1.3 更新包列表并安装 NVIDIA Container Toolkit

更新系统包列表，然后安装 NVIDIA Container Toolkit：

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

1.4 重启 Docker 服务

安装完成后，必须重启 Docker 服务以使更改生效：

sudo systemctl restart docker

1.5 验证 NVIDIA Container Toolkit 安装

执行以下命令以验证 NVIDIA Container Toolkit 是否正确安装：

nvidia-container-cli --version

你还可以通过运行以下命令来确认 Docker 是否能够访问 GPU：

docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi

如果成功显示 GPU 信息，说明 NVIDIA Container Toolkit 已正确安装。

2. 配置 Docker 容器进行 GPU 加速

现在 NVIDIA Container Toolkit 已经安装完毕，我们可以配置 Docker 容器来充分利用 GPU 资源。以下命令将创建一个名为 dev_cuda124 的容器，用于 GPU 深度学习任务：

docker run -it --gpus all \
    -v /mnt:/mnt \
    -v /media:/media \
    --name dev_cuda124 \
    --ulimit memlock=-1 \
    --ulimit stack=67108864 \
    --ipc=host \
    nvidia/cuda:12.4.1-cudnn-devel-ubuntu22.04

命令参数解析：

-it：以交互模式运行容器，方便进行操作。
--gpus all：允许容器使用主机上的所有 GPU。
-v /mnt:/mnt 和 -v /media:/media：将主机的 /mnt 和 /media 目录挂载到容器中，以便在容器中访问主机数据。
--name dev_cuda124：为容器指定名称 dev_cuda124，方便管理和识别。
--ulimit memlock=-1：取消内存锁定限制，确保程序可以锁定尽可能多的内存，适用于深度学习任务。
--ulimit stack=67108864：设置线程的最大栈大小为 64MB，避免深度学习任务中出现栈溢出问题。
--ipc=host：共享主机的 IPC 命名空间，允许容器使用主机的共享内存。

3. 完整配置总结

通过以上步骤，你已经成功配置了 NVIDIA Container Toolkit，并创建了一个可以利用 GPU 进行深度学习任务的 Docker 容器。使用 --ipc=host 确保了容器可以共享主机的共享内存，同时通过 --ulimit 参数确保容器具有足够的栈和内存锁定权限，这将提升深度学习训练的效率。

4. 常见问题与解决方法

问题：容器无法识别 GPU
- 请确保 NVIDIA 驱动和 NVIDIA Container ToolNVIDIA Container Toolkitkit 已正确安装，并通过 nvidia-smi 验证主机是否识别到 GPU。
问题：共享内存不足导致数据加载错误
- 使用 --ipc=host 已经允许容器共享主机的共享内存，但你仍然可以调整主机的 /dev/shm 大小，以满足更大的内存需求。

补充：配置 Docker 以支持 NVIDIA GPU

默认情况下，Docker 并不能直接访问 GPU 资源，原因是 GPU 的管理需要专门的驱动程序和工具。在安装了 NVIDIA Container Toolkit 之后，我们需要告诉 Docker 使用 nvidia 运行时，这样它才能正确地与 GPU 驱动进行通信，并将 GPU 资源暴露给容器。

至于什么是运行时，配置它的原因是什么？这个问题我放在后面解答，让我们先将配置完成。

详细操作步骤

步骤 1：打开或创建 `/etc/docker/daemon.json` 配置文件

daemon.json 是 Docker 的配置文件，用于指定 Docker 守护进程的启动选项。我们需要编辑或创建这个文件来配置默认运行时。

使用以下命令打开（或创建）/etc/docker/daemon.json 文件：
```
sudo nano /etc/docker/daemon.json
```

步骤 2：将 `nvidia` 设置为默认运行时

在打开的 daemon.json 文件中，添加或修改如下内容：

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

default-runtime: 这行设置 Docker 的默认运行时为 nvidia，这样所有容器在启动时都会自动使用 NVIDIA 运行时。
runtimes: 这里定义了 nvidia 运行时的路径和参数，使 Docker 知道如何调用 NVIDIA Container Runtime。

步骤 3：保存文件并退出

在 nano 中编辑完成后，按 Ctrl + X 退出编辑器。
按 Y 确认保存更改，然后按 Enter 确认文件名并退出。

步骤 4：重启 Docker 服务

配置文件修改完成后，重启 Docker 服务以使更改生效：

sudo systemctl restart docker

验证配置是否成功

验证 Docker 是否正确配置了 nvidia 运行时，可以运行以下命令启动一个简单的测试容器：

docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi

这个命令会启动一个临时的容器，并在容器中运行 nvidia-smi 命令。如果成功显示 GPU 信息，说明配置已正确生效。

运行时（Runtime）是指执行程序或任务的环境或平台，在不同的上下文中，"运行时" 可能有不同的含义。对于 Docker 和 NVIDIA Container Toolkit 中的运行时，它主要指的是负责管理和执行容器的底层组件。以下是关于运行时在 Docker 和 NVIDIA 环境中的详细解释：

1. Docker 运行时（Docker Runtime）

什么是 Docker 运行时？

Docker 运行时是一个组件，它负责实际运行容器，将应用程序和所有必要的依赖封装在一起并执行。
运行时管理容器的生命周期，包括容器的启动、停止、资源分配、隔离等。

Docker 运行时的分类

默认运行时（runc）：Docker 默认使用 runc 作为其容器运行时。runc 是一个开源工具，遵循 OCI（Open Container Initiative）标准，负责启动和运行容器。
NVIDIA 运行时（nvidia-container-runtime）：这是 NVIDIA 提供的一个专门用于 GPU 加速的 Docker 运行时，允许 Docker 容器访问主机的 GPU 资源。通过将 nvidia 配置为默认运行时，容器在启动时可以自动利用 GPU，而不需要手动指定 GPU 资源。

Docker 运行时的作用

Docker 运行时是连接 Docker 守护进程（Docker Daemon）与底层容器执行环境的重要组件。
它负责在操作系统上实际启动和运行容器，并提供进程隔离、文件系统挂载、网络配置等功能。

2. NVIDIA Container Runtime

什么是 NVIDIA Container Runtime？

NVIDIA Container Runtime 是 NVIDIA 开发的一个运行时扩展，专门用于让 Docker 容器能够访问主机的 GPU 资源。
它使容器可以加载主机上的 NVIDIA 驱动程序，直接访问 GPU 硬件，从而实现 GPU 加速计算。

NVIDIA Container Runtime 的作用

提供 GPU 支持：通过 nvidia-container-runtime，Docker 容器可以直接利用主机上的 NVIDIA GPU 进行高性能计算。
无需手动配置：使用 nvidia 运行时后，Docker 会自动处理容器与 GPU 之间的通信和资源管理，无需在每次启动容器时手动指定 GPU 配置。

运行时的作用机制

管理容器生命周期：运行时负责启动、停止、重启、删除等操作，确保容器按预期运行。
资源隔离和分配：运行时确保容器之间的资源隔离，包括 CPU、内存、网络、文件系统等，并根据配置分配所需的资源。
加载硬件驱动和库：NVIDIA Container Runtime 负责将主机的 NVIDIA 驱动程序和 CUDA 库挂载到容器中，使得容器可以直接使用 GPU 进行计算。

总结：为什么要设置运行时？

默认 Docker 运行时（runc） 不支持直接访问 GPU，而 NVIDIA Container Runtime 可以将 GPU 资源暴露给容器。因此，配置 Docker 使用 nvidia 运行时非常重要，特别是当你需要在容器中运行深度学习任务时。
配置 nvidia 运行时后，Docker 容器可以自动获得对 GPU 的访问权限，大大简化了 GPU 加速的配置过程，提高了深度学习开发的效率。

通过配置 nvidia 运行时，Docker 容器能够更好地与 GPU 进行交互，充分利用硬件资源，满足高性能计算和深度学习训练的需求。

posted @ 2024-10-02 13:03 溺死在幸福里的猪阅读(3643) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Docker配置代理访问网络ubuntu24.04

· 代码随想录Day2 | LeetCode 209. 长度最小的子数组、LeetCode 59. 螺旋矩阵 II、KamaCoder 44. 开发商购买土地

· 【Docker】使用Docker Client和Docker Go SDK为容器分配GPU资源

· 配置NVIDIA Container Runtime和容器运行GPUStack教程

公告

昵称：溺死在幸福里的猪
园龄： 8个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

使用 NVIDIA Container Toolkit 和 Docker 配置 GPU 深度学习环境

1. 安装 NVIDIA Container Toolkit

1.1 配置生产仓库

1.2 可选：启用实验性包

1.3 更新包列表并安装 NVIDIA Container Toolkit

1.4 重启 Docker 服务

1.5 验证 NVIDIA Container Toolkit 安装

2. 配置 Docker 容器进行 GPU 加速

命令参数解析：

3. 完整配置总结

4. 常见问题与解决方法

补充：配置 Docker 以支持 NVIDIA GPU

详细操作步骤

步骤 1：打开或创建 `/etc/docker/daemon.json` 配置文件

步骤 2：将 `nvidia` 设置为默认运行时

步骤 3：保存文件并退出

步骤 4：重启 Docker 服务

验证配置是否成功

1. Docker 运行时（Docker Runtime）

什么是 Docker 运行时？

Docker 运行时的分类

Docker 运行时的作用

2. NVIDIA Container Runtime

什么是 NVIDIA Container Runtime？

NVIDIA Container Runtime 的作用

运行时的作用机制

总结：为什么要设置运行时？

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

使用 NVIDIA Container Toolkit 和 Docker 配置 GPU 深度学习环境

1. 安装 NVIDIA Container Toolkit

1.1 配置生产仓库

1.2 可选：启用实验性包

1.3 更新包列表并安装 NVIDIA Container Toolkit

1.4 重启 Docker 服务

1.5 验证 NVIDIA Container Toolkit 安装

2. 配置 Docker 容器进行 GPU 加速

命令参数解析：

3. 完整配置总结

4. 常见问题与解决方法

补充：配置 Docker 以支持 NVIDIA GPU

详细操作步骤

步骤 1：打开或创建 /etc/docker/daemon.json 配置文件

步骤 2：将 nvidia 设置为默认运行时

步骤 3：保存文件并退出

步骤 4：重启 Docker 服务

验证配置是否成功

1. Docker 运行时（Docker Runtime）

什么是 Docker 运行时？

Docker 运行时的分类

Docker 运行时的作用

2. NVIDIA Container Runtime

什么是 NVIDIA Container Runtime？

NVIDIA Container Runtime 的作用

运行时的作用机制

总结：为什么要设置运行时？

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

步骤 1：打开或创建 `/etc/docker/daemon.json` 配置文件

步骤 2：将 `nvidia` 设置为默认运行时