摘要:
本人用docker创建了一个ubuntu:22.04的容器,但是居然无法显示中文,网上的教程都是让你export LANG=zh_CN.UTF-8,但是这没什么卵用 结合https://www.cnblogs.com/BillyLV/p/12658463.html 应当先安装中文语言包 apt up 阅读全文
摘要:
启动命令中加入: -DIReallyKnowWhatIAmDoingISwear 也就是 java -DIReallyKnowWhatIAmDoingISwear -jar xxx.jar 阅读全文
摘要:
LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: \[FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \]两个线性层中间夹了个relu激活函数 写成模型 阅读全文
摘要:
python中类变量是属于类的,不属于具体的对象,所有对象共享一个类变量。类变量可以通过类名.变量名访问,也可以通过实例化后的对象.变量名访问。那么,如果我给对象的变量起的名字和类变量同名会如何?我们写代码测试一下: class Foo: name = "hello" # <- 类变量 def se 阅读全文
摘要:
在使用Openssh > 7.8版本生成私钥时,默认的私钥格式是OPENSSH格式,而低版本是RSA格式,这导致部分旧版的ssh应用无法识别新的私钥。 OPENSSH格式开头: BEGIN OPENSSH PRIVATE KEY 旧版的RSA格式开头: BEGIN RSA PRIVATE KEY 我 阅读全文
摘要:
1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X, Y;W)\),并求出梯度,更新参数时: \(W=W-lr*\frac{ 阅读全文
摘要:
某司的专用虚拟网络是用的思科公司的anyconnect,我在docker中安装他,以免干扰我的环境。 步骤: 拉取docker镜像 docker pull ubuntu 运行docker容器 docker exec -itd --cap-add NET_ADMIN --privileged --na 阅读全文
摘要:
博主在学习的过程中,一直看到负对数似然函数(NLLLoss,negative log likelihood loss),虽然知道怎么计算,但是一直不清楚为什么叫似然。今天通过学习对似然和机器学习模型训练有了全新的理解,故记录在此。 本文主要参考:似然(likelihood)和概率(probabili 阅读全文
摘要:
本文并不讲解deepspeed的原理以及用法,只是澄清几个deepspeed中的技术细节。 启动deepspeed训练可以通过运行deepspeed --nproc-per-node 4 xxx.py ...,这样就会启动4个进程来运行xxx.py deepspeed启动进程后如何知道是几号进程? 阅读全文
摘要:
本人使用的系统是Ubuntu 20.04,如果是22.04会更加丝滑 1. 终端复制粘贴 Ubuntu默认的复制粘贴是Ctrl+Shift+C,而我习惯了Ctrl+C,同时windows的终端是支持鼠标右键复制粘贴的,非常方便。 对于后者,鼠标右键单击复制/粘贴,在Ubuntu 更新版本的终端中已经 阅读全文