Nivdia CUDA installation

1.(除所有被 hold 的包

首先,解除所有被 hold 的包,以便系统可以正常处理依赖关系。你可以使用以下命令:

bash
复制
sudo apt-mark unhold $(sudo apt-mark showhold)

这将解除所有被 hold 的包。

2. 清理旧的 NVIDIA 和 CUDA 包

接下来,清理系统中可能存在的旧版本 NVIDIA 和 CUDA 包。你可以使用以下命令:

bash
复制
sudo apt-get purge 'nvidia-*' 'cuda-*'
sudo apt-get autoremove
sudo apt-get autoclean

这将删除所有与 NVIDIA 和 CUDA 相关的包,并清理不再需要的依赖项。

3. 手动删除残留文件

有时,即使使用 apt-get purge,仍然会有一些残留文件。你可以手动删除这些文件:

bash
复制
sudo rm -rf /usr/local/cuda*
sudo rm -rf /etc/apt/sources.list.d/cuda*

4. 更新系统并修复依赖

在清理完旧包后,更新系统并修复可能的依赖问题:

bash
复制
sudo apt-get update
sudo apt-get upgrade
sudo apt --fix-broken install

5. 重新安装 nvidia-cuda-toolkit

现在,你可以尝试重新安装 nvidia-cuda-toolkit

bash
复制
sudo apt-get install nvidia-cuda-toolkit

6. 检查依赖关系

如果仍然遇到依赖问题,可以手动安装缺失的依赖包。例如,如果提示缺少 libnvidia-ml-dev,可以尝试:

bash
复制
sudo apt-get install libnvidia-ml-dev

 

8. 检查环境变量

安装完成后,确保 CUDA 的环境变量已正确设置。你可以将以下内容添加到 ~/.bashrc~/.zshrc 中:

bash
复制
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

然后运行 source ~/.bashrcsource ~/.zshrc 使更改生效。

9. 验证安装

最后,验证 CUDA 是否安装成功:

bash
复制
nvcc --version
nvidia-smi

如果 nvccnvidia-smi 都能正常运行,说明 CUDA 安装成功。

 


1. 检查 NVIDIA 驱动是否安装

首先,检查系统中是否安装了 NVIDIA 驱动程序。运行以下命令:

bash
复制
lsmod | grep nvidia

如果没有任何输出,说明 NVIDIA 驱动程序没有加载。你可以尝试重新安装驱动程序。


2. 重新安装 NVIDIA 驱动

如果驱动程序没有正确安装,可以尝试重新安装。以下是步骤:

2.1. 卸载旧的 NVIDIA 驱动

首先,卸载旧的 NVIDIA 驱动程序:

bash
复制
sudo apt-get purge 'nvidia-*'
sudo apt-get autoremove
sudo apt-get autoclean

2.2. 安装最新的 NVIDIA 驱动

然后,安装最新的 NVIDIA 驱动程序。你可以通过以下命令安装:

bash
复制
sudo apt-get update
ubuntu-drivers devices
sudo apt-get install nvidia-driver-535 # 选择适合你 GPU 的驱动版本

安装完成后,重启系统:

bash
复制
sudo reboot

2.3. 验证驱动安装

重启后,检查驱动是否正确安装:

bash
复制
nvidia-smi

如果 nvidia-smi 仍然无法运行,可能是驱动安装失败。


3. 检查 nvidia-smi 的路径

如果 nvidia-smi 仍然无法运行,可能是因为它的路径没有正确配置。你可以手动查找 nvidia-smi 的位置:

bash
复制
find /usr -name "nvidia-smi"

如果找到了 nvidia-smi 的路径,比如 /usr/bin/nvidia-smi,你可以创建一个符号链接:

bash
复制
sudo ln -s /path/to/nvidia-smi /usr/bin/nvidia-smi

然后再次运行:

bash
复制
nvidia-smi

4. 检查 CUDA 和驱动的兼容性

确保你安装的 CUDA 版本与 NVIDIA 驱动版本兼容。例如,CUDA 11.5 需要至少 450.80.02 版本的驱动程序。你可以通过以下命令检查驱动版本:

bash
复制
cat /proc/driver/nvidia/version

如果驱动版本过低,需要升级驱动程序。


 

posted @ 2024-12-23 12:10  神犇(shenben)  阅读(47)  评论(0编辑  收藏  举报