AI_Pytorch_Transformer

基本概念

 self-attention最经典的公式
    q:query,用来匹配其他单元
    k:key,用来被其他单元匹配
    v:value,需要被提取的信息
  位置编码positon
      绝对位置信息:每个词的embedding向量内部顺序
      相对位置信息:每个词和每个词之间的顺序(作用于自注意力机制)
      目的:保留位置信息(绝对位置信息 + 相对位置信息)	  
    Input Embedding Queries Keys Values Score 
self-attention Q(uery)K(ey)V(alue)均来源与一个sequence,
   cross-attention中Q来源于另一个sequence,而且多为跨模态的sequence 	
Self-Attention for Image	
   输入: sequence(编码方式:①one-hot编码;②word embedding)
       window(一般window的大小是25ms),每个window中的声音信号作为一个vector	
   输出:
      label
Self-Attention for Image
  方式一:image看成一个w*h的sequence,每个像素的vector中包含的是像素的RGB三通道值
  方式二: 将image分块,每块是一个输入vector。	  
target attention一	 Query-to-context Attention

一种是基于强化学习(Reinforcement Learning)来做的,通过收益函数(Reward)来激励
另外一种是基于梯度下降(Gradient Decent)来做的。 梯度下降法是通过目标函数以及相应的优化函数来做的

大语言模型

Large Language Model(LLM),也称为大型语言模型
CLIP 对比语言-图像预训练,是一个预训练模型,简称为CLIP。 
    Contrastive Language-Image Pretraining 	 
    OpenAI 在 2021 年推出的 CLIP 模型 模型结构其实非常简单:包括两个部分,即文本编码器和图像编码器。
 GPT的全称,是Generative Pre-Trained Transformer(生成式预训练Transformer模型)
 BERT: Bidirectional Encoder Representation from Transformers 

Transformer

Transformer 由两个独立的模块组成,即Encoder和Decoder
 编码器: 一个堆叠N个相同的层。每层由两个子层组成 第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。
 解码器 都是堆叠N个相同的层,但是解码器每层有三个子层组成
 
 多头注意力模块的中心部分构建

  CNN 卷积网络是专门用于处理网格化数据
  RNN 循环神经网络是专门用于处理序列 x (1), . . . , x(τ) 的神经网
 
self-attention
    自然语言处理的精度和速度- BERT,GPT2,GPT3, 
	ViT(Vision Transformer)
	 ViT 模型主要由多头注意力模块(MSA)和多层感知机模块(MLP)组成

应用场景

  模型即服务 
 掩膜(Mask 覆盖的特定图像或物体称为掩模或模板 掩膜(mask)就是遮罩,在Photoshop里面就是图层蒙板-抠图
  抠图,一键替换背景  

Segment Anything Model (SAM)

https://github.com/facebookresearch/segment-anything
   交互式分割和自动分割
模型整体上包含三个大模块,
   image encoder,prompt encoder和mask decoder。
微调的detectron的ViT  
 patch_embed过后加positional_embedding  feature map transformer block	
 
 图像掩模(image mask)

Stable Diffusion的微调方案:

 扩散模型图像生成的核心是强大的计算机视觉模型。
 根据文本生成图像(text2img) 将文本信息融入扩散过程以控制图片类型

 sd现存多种微调方案:Dreambooth、textual inversion、lora、hyoernetworks、aesthetic embedding

DreamBooth

《微调文本到图像扩散模型,以实现主体驱动生成》 
 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
   DreamBooth 是在 Imagen 的基础上做的调整

参考

 《Attention Is All You Need》		
  https://dreambooth.github.io/	 
  https://github.com/ZrrSkywalker/Personalize-SAM
posted @ 2023-06-27 15:38  辰令  阅读(21)  评论(0编辑  收藏  举报