工程问题
ubuntu安装软件时:有未能满足的依赖关系
使用sudo apt-get install
报错.
尝试sudo aptitude install xxx
解决.
远程服务器未安装tmux
- apt-get update
- apt-get install tmux
准备DL环境
不要直接使用项目的.yaml
,首先需要考虑服务器的cuda
版本,安装对应的pytorch
和torchvision
。
在准备好cuda, pytorch, torchvision
后,参考其他人的环境配置时需要修改相关的版本序号.
修改DL代码
测试代码是否正确时,可以固定参数, 减少数据数量 -- 通过命令行减少、修改DataLoader, 使用
print()
输出数据的shape
.
Linux
查看GPU使用情况: watch -n 1 nvidia-smi
训练NN
记录每轮最后的training loss
, 做成图表.
考虑Ideal
特别注意原论文的实验数据.
数据集
MotionAGFormer使用的Human3.6M数据集时,在一个服务器上顺利
unzip并执行切分clip.
但过约一个星期后再次使用下载的数据集进行切分, 显示pickle.load
出错.
重新下载数据集后解决问题. 数据集会过时?