基本概念
self-attention最经典的公式
q:query,用来匹配其他单元
k:key,用来被其他单元匹配
v:value,需要被提取的信息
位置编码positon
绝对位置信息:每个词的embedding向量内部顺序
相对位置信息:每个词和每个词之间的顺序(作用于自注意力机制)
目的:保留位置信息(绝对位置信息 + 相对位置信息)
Input Embedding Queries Keys Values Score
self-attention Q(uery)K(ey)V(alue)均来源与一个sequence,
cross-attention中Q来源于另一个sequence,而且多为跨模态的sequence
Self-Attention for Image
输入: sequence(编码方式:①one-hot编码;②word embedding)
window(一般window的大小是25ms),每个window中的声音信号作为一个vector
输出:
label
Self-Attention for Image
方式一:image看成一个w*h的sequence,每个像素的vector中包含的是像素的RGB三通道值
方式二: 将image分块,每块是一个输入vector。
target attention一 Query-to-context Attention
一种是基于强化学习(Reinforcement Learning)来做的,通过收益函数(Reward)来激励
另外一种是基于梯度下降(Gradient Decent)来做的。 梯度下降法是通过目标函数以及相应的优化函数来做的
大语言模型
Large Language Model(LLM),也称为大型语言模型
CLIP 对比语言-图像预训练,是一个预训练模型,简称为CLIP。
Contrastive Language-Image Pretraining
OpenAI 在 2021 年推出的 CLIP 模型 模型结构其实非常简单:包括两个部分,即文本编码器和图像编码器。
GPT的全称,是Generative Pre-Trained Transformer(生成式预训练Transformer模型)
BERT: Bidirectional Encoder Representation from Transformers
Transformer 由两个独立的模块组成,即Encoder和Decoder
编码器: 一个堆叠N个相同的层。每层由两个子层组成 第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。
解码器 都是堆叠N个相同的层,但是解码器每层有三个子层组成
多头注意力模块的中心部分构建
CNN 卷积网络是专门用于处理网格化数据
RNN 循环神经网络是专门用于处理序列 x (1), . . . , x(τ) 的神经网
self-attention
自然语言处理的精度和速度- BERT,GPT2,GPT3,
ViT(Vision Transformer)
ViT 模型主要由多头注意力模块(MSA)和多层感知机模块(MLP)组成
应用场景
模型即服务
掩膜(Mask 覆盖的特定图像或物体称为掩模或模板 掩膜(mask)就是遮罩,在Photoshop里面就是图层蒙板-抠图
抠图,一键替换背景
Segment Anything Model (SAM)
https://github.com/facebookresearch/segment-anything
交互式分割和自动分割
模型整体上包含三个大模块,
image encoder,prompt encoder和mask decoder。
微调的detectron的ViT
patch_embed过后加positional_embedding feature map transformer block
图像掩模(image mask)
Stable Diffusion的微调方案:
扩散模型图像生成的核心是强大的计算机视觉模型。
根据文本生成图像(text2img) 将文本信息融入扩散过程以控制图片类型
sd现存多种微调方案:Dreambooth、textual inversion、lora、hyoernetworks、aesthetic embedding
DreamBooth
《微调文本到图像扩散模型,以实现主体驱动生成》
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth 是在 Imagen 的基础上做的调整
参考
《Attention Is All You Need》
https://dreambooth.github.io/
https://github.com/ZrrSkywalker/Personalize-SAM