模型训练

 

安装cuda

vim ~/.bashrc
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

安装cudnn

sudo cp cudnn-linux-x86_64-8.8.0.121_cuda11-archive/include/cudnn*.h /usr/local/cuda/include/
sudo cp cudnn-linux-x86_64-8.8.0.121_cuda11-archive/lib/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

安装pytorch

requirements.txt
protobuf>=3.19.5,<3.20.1
transformers>=4.26.1
icetk
cpm_kernels
gradio
pip3 install --user -r requirements.txt
pip install --user torch==1.10.0+cu111 torchvision==0.11.0+cu111 torchaudio==0.10.0 -f torch-1.10.0+cu111-cp39-cp39-linux_x86_64.whl -f torchvision-0.11.0+cu111-cp39-cp39-linux_x86_64.whl -f torchaudio-0.10.0+cu111-cp39-cp39-linux_x86_64.whl
想要大batch训练,又想节省内存的训练方式

 

有人会问,在上面的代码中为什么不直接对多个batchloss先求和然后再取平均、再进行梯度回传和更新呢?

按我的理解这是为了减小内存的消耗。当采用多个batchloss求和平再均后再回传的方式时,我们会进行accumulation_stepsbatch的前向计算,而前向计算后都会生成一个计算图。也就是说,在这种方式下,会生成accumulation_steps个计算图再进行backward计算。

而采用上述代码的方式时,当每次的batch前向计算结束后,就会进行backward的计算,计算结束后也就释放了计算图。又因为这两者计算过程的梯度都是累加的,所以计算结果都是相同的,但是上述的方法在每一时刻中,最多只会生成一张计算图,所以也就减小了计算中的内存消耗。

训练加参数:

parser = argparse.ArgumentParser(description='Chinese Text Classification')
parser.add_argument('--model', type=str, required=True, help='choose a model: TextCNN, TextRNN, FastText, TextRCNN, TextRNN_Att, DPCNN, Transformer')
parser.add_argument('--embedding', default='pre_trained', type=str, help='random or pre_trained')
parser.add_argument('--word', default=False, type=bool, help='True for word, False for char')
args = parser.parse_args()

 

 


posted @ 2023-05-09 14:21  15375357604  阅读(29)  评论(0编辑  收藏  举报