09 2024 档案

摘要:1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是W,随机选择一批样本组成一个batch,输入模型计算loss:L=f(X,Y;W),并求出梯度,更新参数时: \(W=W-lr*\frac{ 阅读全文
posted @ 2024-09-29 15:31 王冰冰 阅读(686) 评论(2) 推荐(0) 编辑
摘要:某司的专用虚拟网络是用的思科公司的anyconnect,我在docker中安装他,以免干扰我的环境。 步骤: 拉取docker镜像 docker pull ubuntu 运行docker容器 docker exec -itd --cap-add NET_ADMIN --privileged --na 阅读全文
posted @ 2024-09-08 18:37 王冰冰 阅读(123) 评论(2) 推荐(0) 编辑
摘要:博主在学习的过程中,一直看到负对数似然函数(NLLLoss,negative log likelihood loss),虽然知道怎么计算,但是一直不清楚为什么叫似然。今天通过学习对似然和机器学习模型训练有了全新的理解,故记录在此。 本文主要参考:似然(likelihood)和概率(probabili 阅读全文
posted @ 2024-09-03 14:50 王冰冰 阅读(325) 评论(0) 推荐(0) 编辑
摘要:本文并不讲解deepspeed的原理以及用法,只是澄清几个deepspeed中的技术细节。 启动deepspeed训练可以通过运行deepspeed --nproc-per-node 4 xxx.py ...,这样就会启动4个进程来运行xxx.py deepspeed启动进程后如何知道是几号进程? 阅读全文
posted @ 2024-09-01 00:37 王冰冰 阅读(357) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起