摘要:
图文多模态方向:利用现有强大的预训练图像和语言大模型,冻结其参数并通过可训练模块建立起图像与语言模型间联系,实现对图文数据的联合处理能力。 CoGVLM 结构 整个网络结构由4部分构成: 视觉模型(ViT encoder), 语言模型(LLM), MLP适配器(MLP adapter),视觉专家模块 阅读全文
摘要:
整理原链接内容方便阅读;最好的阅读体验是复制下述链接内容,并使用$替换全体\),然后用VSCode进行markdown渲染 源链接: https://github.com/huggingface/blog/blob/main/encoder-decoder.md Transformers-based 阅读全文
摘要:
代数聚合 计算向量\(\mathbf x^l \in \mathbb R^{1 \times d}\)的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ 阅读全文
摘要:
架构:由Transformer论文衍生出来的大语言模型,主要有三种模型架构 预训练目标:FLM,PLM,MLM 调整: 微调: Transformer transfomer可以并行地计算? transformer中encoder模块是完全并行的,而decoder不是完全并行的。 模型结构 使用原文表 阅读全文
摘要:
大规模分布式训练并行模式 数据并行 Data Parallelism 模型在不同GPU上具有完全一致的副本,包括模型参数、模型梯度、模型优化器状态,这些都是完全相同的。唯一不同的是不同GPU上处理的数据是不同的,在每次梯度更新时,对所有数据产生梯度之和求平均,然后更新。 管道并行 Pipeline 阅读全文
摘要:
## UNet2DModel 整体网络结构 block_out_channels: 参考UNet的思路,收缩阶段图像空间尺寸在变小但特征通道则增加;扩张阶段则相反。 - conv_in: 对输入的像素空间图像进行卷积处理,获得指定通道且与原始图像相同尺寸的第一层特征图 - down_blocks:依 阅读全文
摘要:
## 总览 原始的扩散模型训练及推理是在像素空间进行的,这将耗费大量的GPU和能量资源。为了缓解这一状况,作者提出了一种方案,将高分辨率图像的合成过程分解为两个过程:图像编解码和隐特征空间扩散。 - 图像编码器将像素空间中图像编码为隐特征latent code(生成过程不需要此步骤) - 扩散模型D 阅读全文
摘要:
## 数据收集细节 InstructGPT中数据收集是一个关键的过程,包括收集什么类型的数据、如何筛选标注人员等等。InstructGPT类型的数据是与InstructGPT三阶段训练相对应,而筛选标注人员,则是为了收集的数据质量更高。从下面数据收集细节可以看出为什么要进行标注人员筛选。 ### 标 阅读全文
摘要:
我用自己的话描述一遍DDPM加深理解,原文可参考苏剑林博客 https://spaces.ac.cn/archives/9119 ## 加噪过程 设 $\bf x_0$表示一张图片, 逐步在当前图片上添加微小噪音,经过T步得到T张中间图片,依次为 $\bf x_1, \bf x_2, \cdots, 阅读全文
摘要:
## 一般形式的EM算法 期望最大化算法或者EM算法是,求解具有潜在变量的概率模型的最大似然解的一种通用方法。这里给出一般形式的EM算法,并启发式地推导EM算法最大化了似然函数。 考虑一个概率模型,将其中所有的观测变量联合起来记为$X$, 将所有的与观测变量对应的潜在变量记为$Z$。联合概率分布$p 阅读全文