星辰大海,绿色星球

2023年11月5日

摘要：图文多模态方向：利用现有强大的预训练图像和语言大模型，冻结其参数并通过可训练模块建立起图像与语言模型间联系，实现对图文数据的联合处理能力。 CoGVLM 结构整个网络结构由4部分构成：视觉模型(ViT encoder), 语言模型(LLM), MLP适配器(MLP adapter)，视觉专家模块阅读全文

posted @ 2023-11-05 14:38 星辰大海,绿色星球阅读(759) 评论(0) 推荐(0) 编辑

2023年10月22日

Transformer-based Encoder-Decoder Models

摘要：整理原链接内容方便阅读；最好的阅读体验是复制下述链接内容，并使用$替换全体\)，然后用VSCode进行markdown渲染源链接： https://github.com/huggingface/blog/blob/main/encoder-decoder.md Transformers-based 阅读全文

posted @ 2023-10-22 12:15 星辰大海,绿色星球阅读(26) 评论(0) 推荐(0) 编辑

FlashAttention 如何加速Attention计算？

摘要：代数聚合计算向量$\mathbf x^l \in \mathbb R^{1 \times d}$的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ 阅读全文

posted @ 2023-10-22 11:33 星辰大海,绿色星球阅读(40) 评论(0) 推荐(0) 编辑

大语言模型LLM-三种模型架构

摘要：架构：由Transformer论文衍生出来的大语言模型，主要有三种模型架构预训练目标：FLM，PLM，MLM 调整：微调： Transformer transfomer可以并行地计算？ transformer中encoder模块是完全并行的，而decoder不是完全并行的。模型结构使用原文表阅读全文

posted @ 2023-10-22 10:30 星辰大海,绿色星球阅读(1592) 评论(0) 推荐(0) 编辑

2023年9月10日

大规模分布式训练并行模式

摘要：大规模分布式训练并行模式数据并行 Data Parallelism 模型在不同GPU上具有完全一致的副本，包括模型参数、模型梯度、模型优化器状态，这些都是完全相同的。唯一不同的是不同GPU上处理的数据是不同的，在每次梯度更新时，对所有数据产生梯度之和求平均，然后更新。管道并行 Pipeline 阅读全文

posted @ 2023-09-10 14:42 星辰大海,绿色星球阅读(66) 评论(0) 推荐(0) 编辑

2023年8月18日

DDPM [diffusers] 保姆级代码解释 (1)

摘要： ## UNet2DModel 整体网络结构 block_out_channels：参考UNet的思路，收缩阶段图像空间尺寸在变小但特征通道则增加；扩张阶段则相反。 - conv_in：对输入的像素空间图像进行卷积处理，获得指定通道且与原始图像相同尺寸的第一层特征图 - down_blocks：依阅读全文

posted @ 2023-08-18 11:25 星辰大海,绿色星球阅读(1608) 评论(2) 推荐(1) 编辑

2023年8月6日

Latent Diffusion Model快读

摘要： ## 总览原始的扩散模型训练及推理是在像素空间进行的，这将耗费大量的GPU和能量资源。为了缓解这一状况，作者提出了一种方案，将高分辨率图像的合成过程分解为两个过程：图像编解码和隐特征空间扩散。 - 图像编码器将像素空间中图像编码为隐特征latent code（生成过程不需要此步骤） - 扩散模型D 阅读全文

posted @ 2023-08-06 18:13 星辰大海,绿色星球阅读(1082) 评论(0) 推荐(0) 编辑

2023年7月8日

Instruct-GPT

摘要： ## 数据收集细节 InstructGPT中数据收集是一个关键的过程，包括收集什么类型的数据、如何筛选标注人员等等。InstructGPT类型的数据是与InstructGPT三阶段训练相对应，而筛选标注人员，则是为了收集的数据质量更高。从下面数据收集细节可以看出为什么要进行标注人员筛选。 ### 标阅读全文

posted @ 2023-07-08 14:48 星辰大海,绿色星球阅读(331) 评论(0) 推荐(0) 编辑

去噪扩散概率模型DDPM

摘要：我用自己的话描述一遍DDPM加深理解，原文可参考苏剑林博客 https://spaces.ac.cn/archives/9119 ## 加噪过程设 $\bf x_0$表示一张图片, 逐步在当前图片上添加微小噪音，经过T步得到T张中间图片，依次为 $\bf x_1, \bf x_2, \cdots, 阅读全文

posted @ 2023-07-08 14:07 星辰大海,绿色星球阅读(255) 评论(0) 推荐(0) 编辑

2023年5月28日

期望最大化EM算法(2)

摘要： ## 一般形式的EM算法期望最大化算法或者EM算法是，求解具有潜在变量的概率模型的最大似然解的一种通用方法。这里给出一般形式的EM算法，并启发式地推导EM算法最大化了似然函数。考虑一个概率模型，将其中所有的观测变量联合起来记为$X$, 将所有的与观测变量对应的潜在变量记为$Z$。联合概率分布$p 阅读全文

posted @ 2023-05-28 20:56 星辰大海,绿色星球阅读(27) 评论(0) 推荐(0) 编辑

星辰大海

公告