随笔分类 - 深度学习 / 多模态
摘要:LLaMA 最近开源,分别开源了 7e9, 1.3e10, 3.3e10, 6.5e10 四个参数量的模型。但是这里有意思的是,他们管自己的模型称为 smaller models。 Google 推出了 22B 的 ViT 1. Efficient(PEFT) 简要概括 更高效,哪里慢就让它快起来
阅读全文
摘要:开场 多模态串讲的上篇是比较传统的多模态任务 多模态最后的模态交互很重要 传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。 ViLT 把预训练的目标检测器换成了一层的 Patch Embedding。 因此容易比不过 c 类的方法 ViLT 训练很慢 认为未来是 c 类的模型结构 Loss
阅读全文