1、Linux常用命令及操作+2、Linux常见报错及解决方式+3、训练常见报错及解决方式
1、Linux常用命令
(1.1)Linux流量监控软件bwm
安装:apt-get -y install bwm-ng
使用:bwm-ng -d
设你使用的是‘curses’输出方式,那么将会用到 ‘a’, ‘t’和‘u’这三个命令键:
‘a’-在全部传感器接口和选定接口间转换 (bwm-ng.conf)
‘t’-在 rate, max (峰值), sum (程序启动后的总吞吐量),以及30秒平均值之间切换。
‘u’-显示bytes/bits/packets/errors
(1.2)Linux流量监控软件Nethogs
安装过程参考链接:https://www.yundongfang.com/Yun3256.html
使用 Nethogs 监控网络流量
sudo nethogs
表示每 10 秒应刷新一次监控
sudo nethogs -d 10
指定要监视的网络接口
sudo nethogs -d 10 eth1
(2)实时查看GPU使用、显存占用情况以及杀死GPU上的多个无用进程
watch -n 0.1 nvidia-smi
出来的结果,直接就有PID,然后再用
ps -ef|grep [PID]
就知道这个PID是哪个程序在跑了,可以用
kill [PID]
杀掉进程
(3)sftp文件传输工具
(4)快捷键整理
参考链接:史上最全的Linux常用命令汇总(超全面!超详细!)收藏这一篇就够了!
https://blog.csdn.net/weixin_44895651/article/details/105289038
linux安装软件直接跳至输入行快捷键ctrl C
Linux查看ip
为软件手动添加快捷方式
SSH局域网设备连接
同一个局域网下(路由器等),用cmd命令参考下图连接至另一台设备(设备本身可能需要安装sshserver等软件,并且),相当于不用内网穿透转发等技术图片:
2、常见报错及解决方式
搜狗输入法异常,不能正确输入中文字符
sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-module-qtquick2
sudo apt install libgsettings-qt1
Linux下nvcc -V 与 nvidia -smi 已安装但command not found,but can be installed with:问题
(又发现新的问题,勿参考此经验,出现了电脑重启后无法进入桌面,循环卡在登录环节,初步判定原因是修改环境变量造成的解决方案附下)
参考链接:解决ubuntu20.04.3输入密码无法进入桌面的问题https://blog.csdn.net/isAlenz/article/details/126385024
参考链接:https://blog.csdn.net/qq_43237769/article/details/124895486
(1)此时需要解决此问题,需要加入环境变量,要记住安装cuda的版本号,本机(cuda-11.3,是你安装对应cuda的版本号,以下两行都需要改)输入以下指令:
export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64:$LD_LIBRARY_PATH>>~/.bashrc
export PATH=/usr/local/cuda-11.4/bin/:$PATH>>~/.bashrc
(2)输入
sudo gedit /etc/profile
在最后面加入:
export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin\({PATH:+:\){PATH}}
export LD_LIBRARY_PATH=/usr/loca/cuda/lib64\({LD_LIBRARY_PATH:+:\){LD_LIBRARY_PATH }}
保存退出
(3)、使环境变量生效:
source ~/.bashrc
Linux下使用git clone从huggingface或github下载文件时,出现拒绝访问等情况
1、可直接使用wget + lfs文件下载链接
例如
wget https://huggingface.co/THUDM/chatglm2-6b/resolve/main/pytorch_model-00001-of-00007.bin
目前暂未找到脚本文件可一次性批量下载所有文件
2、尝试查看一下自己的账号密码是否设置正确并重新设置
git config --global user.email "xxx"
git config --global user.name "xxx"
3、也可能仅仅只是网络问题,多试几次就好了
4、git clone 失败 设置账号密码
5、仔细认真看报错提示
如果有建议输入...获取更过信息
一定要输入
总之,按照提示里面存在的建议去操作,事半功倍
例如bitsandbytes安装的错误
特别记录bitsandbytes包安装问题,除此包外相关依赖安装完毕后
可以尝试使用以上方式是否能解决问题
如果失败,先卸载此包
再使用pip install bitsandbytes安装
6、
......
Root Cause (first observed failure):
[0]:
time : 2023-08-08_09:37:16
host : iZwz9cu7osdxz9eaqxl09vZ
rank : 0 (local_rank: 0)
exitcode : 1 (pid: 5688)
error_file: <N/A>
traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
对于以上这种提示json文件有编码问题或者分布式有问题的、
记住json文件里面不要乱写注释,注释方式不对容易出现编码问题
(同时使用Pycharm改后缀检查自己的数据集是否有问题)
conda中的python版本,也有可能造成各种各样的版本问题,例如accelerate(常用版本accelerate==0.21.0)、bitsandbytes或分布式相关问题等,遇到此类问题可以升级python版本
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?