09 2024 档案
摘要:1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是,随机选择一批样本组成一个batch,输入模型计算loss:,并求出梯度,更新参数时: \(W=W-lr*\frac{
阅读全文
摘要:某司的专用虚拟网络是用的思科公司的anyconnect,我在docker中安装他,以免干扰我的环境。 步骤: 拉取docker镜像 docker pull ubuntu 运行docker容器 docker exec -itd --cap-add NET_ADMIN --privileged --na
阅读全文
摘要:博主在学习的过程中,一直看到负对数似然函数(NLLLoss,negative log likelihood loss),虽然知道怎么计算,但是一直不清楚为什么叫似然。今天通过学习对似然和机器学习模型训练有了全新的理解,故记录在此。 本文主要参考:似然(likelihood)和概率(probabili
阅读全文
摘要:本文并不讲解deepspeed的原理以及用法,只是澄清几个deepspeed中的技术细节。 启动deepspeed训练可以通过运行deepspeed --nproc-per-node 4 xxx.py ...,这样就会启动4个进程来运行xxx.py deepspeed启动进程后如何知道是几号进程?
阅读全文