摘要: 新开个坑,记录一些GPU主机的常见问题。 问题描述 某次开机后驱动无法使用,nvidia-smi显示无法连接nvidia驱动。 原因 如果没有关闭自动更新,ubuntu重启后可能切换内核,导致驱动失效。 确认问题 查看当前内核: uname -a 查看已安装内核: dpkg --get-select 阅读全文
posted @ 2023-10-10 22:21 treasurew_wang 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 目前实验室的GPU服务器有4张3090显卡,但是只有32GB内存,频繁出现OOM(Out Of Memory)错误,因此博主通过添加大swap文件暂时缓解该问题,并采购内存条以解决该问题,同时解决添加内存条后lxc报错的问题。 阅读全文
posted @ 2023-09-22 16:56 treasurew_wang 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 在之前的文章中,我们完成了宿主机的配置,接下来将进行LXD的部署。 在实验室环境下,多人共用GPU服务器,由于大家所需的系统环境可能不同,一个用户修改系统文件会影响其它用户,甚至会有小白胡乱修改文件导致服务器崩溃的可能。我们可以通过不给sudo权限来减轻这个问题,但是这不仅对用户来说不方便,也大大增加了管理员的负担:每次安装包等操作都要找管理员处理。因此我们希望通过虚拟化使得各个用户的环境互相隔开,每个用户在他的视角可以独占整个系统。 lxd提供了一种系统级的虚拟化方案,他在lxc基础上做了一些改进,使得管理更方便。 这边首先贴一个lxd的文档地址:`https://documentation.ubuntu.com/lxd/en/latest/`方便查阅。 阅读全文
posted @ 2023-08-29 15:37 treasurew_wang 阅读(1158) 评论(0) 推荐(1) 编辑
摘要: 在之前博客中,我们对宿主机进行了基本配置和基本深度学习环境的配置,在本文中,我们将介绍如何对服务器进行frp网穿,本文的内容可用于后续的lxd容器中,实现每个容器皆可使用公网ip访问。 若不需要配置网穿,则可以跳过此文。 配置网穿可以在局域网外访问服务器,我们需要一台具有公网ip的服务器。 阅读全文
posted @ 2023-08-27 15:08 treasurew_wang 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 在上一篇博客中,我们介绍了服务器的基本配置,例如换源、sshd配置、防火墙配置等。 在本文中,我们将继续介绍如何在宿主机配置基本的深度学习环境,包括nvidia驱动,cuda,anaconda,torch等。 阅读全文
posted @ 2023-08-27 14:25 treasurew_wang 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 从零搭建服务器是一个看似简单实则有些繁琐的操作,本文旨在记录并整合这些操作,使得后续搭建可以成为一个流水线般简单流程的过程。 操作系统的安装过程网络上资源非常多,本文不再赘述。 本文将对刚安装的ubuntu20.04.06操作系统进行基本配置。 阅读全文
posted @ 2023-08-26 15:41 treasurew_wang 阅读(506) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示