10 2024 档案
摘要:LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: 两个线性层中间夹了个relu激活函数 写成模型
阅读全文
摘要:python中类变量是属于类的,不属于具体的对象,所有对象共享一个类变量。类变量可以通过类名.变量名访问,也可以通过实例化后的对象.变量名访问。那么,如果我给对象的变量起的名字和类变量同名会如何?我们写代码测试一下: class Foo: name = "hello" # <- 类变量 def se
阅读全文
摘要:在使用Openssh > 7.8版本生成私钥时,默认的私钥格式是OPENSSH格式,而低版本是RSA格式,这导致部分旧版的ssh应用无法识别新的私钥。 OPENSSH格式开头: BEGIN OPENSSH PRIVATE KEY 旧版的RSA格式开头: BEGIN RSA PRIVATE KEY 我
阅读全文