docker容器中执行GPU环境中的tensorflow和pytorch任务
1. 背景
(1) 业务方提供了一台有GPU的服务器,且已经安装了显卡等组件,cuda版本10.2,具体信息如下
(2) 在裸机上部署anaconda、pytorch、tensorflow较为麻烦,因此打算在docker中执行pytorch和tensorflow任务
2. 部署及使用
2.1 先决条件
1) 必须要NVIDIA显卡
2) 安装NVIDIA显卡驱动,可参CentOS 7 安装 NVIDIA 显卡驱动和 CUDA Toolkit,https://github.com/NVIDIA/nvidia-docker,nvidia驱动下载
3) 安装docker,版本最好>=19.*(本人安装的是18.*)
2.2 安装GPU版本的tensorflow
1) docker运行GPU版的tensorflow,只需要安装NVIDIA驱动即可,而不需要安装cuda相关的工具包,docker镜像中已经包含
2) 参考nvidia-docker,tensorflow docker安装
2.3 使用GPU版本的tensorflow
1) docker中测试当前安装的nvidia驱动
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
2) 测试tensorflow的GPU设备信息
docker run --runtime=nvidia -it --rm tensorflow/tensorflow:latest-gpu python -c "import tensorflow as tf; print(tf.test.gpu_device_name())"
3) docker容器中执行命令
docker run -it tensorflow/tensorflow:latest-gpu bash
4) 容器中执行tensorflow 脚本
docker run -it --rm -v $PWD:/tmp -w /tmp tensorflow/tensorflow:latest-gpu python ./script.py
2.4 安装GPU版本的pytorch
拉取镜像:nvcr.io/nvidia/pytorch:latest
2.5 使用GPU版本的pytorch
1) docker容器中执行命令
docker run --runtime=nvidia -v ${PWD}:/tmp -it --rm nvcr.io/nvidia/pytorch:20.03-py3 bash

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了