AI_Pytorch_Transformer

基本概念

 self-attention最经典的公式
    q：query，用来匹配其他单元
    k：key，用来被其他单元匹配
    v：value，需要被提取的信息
  位置编码positon
      绝对位置信息：每个词的embedding向量内部顺序
      相对位置信息：每个词和每个词之间的顺序（作用于自注意力机制）
      目的：保留位置信息（绝对位置信息 + 相对位置信息）	  
    Input Embedding Queries Keys Values Score 
self-attention Q（uery）K（ey）V（alue）均来源与一个sequence，
   cross-attention中Q来源于另一个sequence，而且多为跨模态的sequence 	
Self-Attention for Image	
   输入： sequence（编码方式：①one-hot编码；②word embedding）
       window（一般window的大小是25ms），每个window中的声音信号作为一个vector	
   输出：
      label
Self-Attention for Image
  方式一：image看成一个w*h的sequence，每个像素的vector中包含的是像素的RGB三通道值
  方式二： 将image分块，每块是一个输入vector。	  
target attention一	 Query-to-context Attention

一种是基于强化学习（Reinforcement Learning）来做的，通过收益函数（Reward）来激励
另外一种是基于梯度下降（Gradient Decent）来做的。 梯度下降法是通过目标函数以及相应的优化函数来做的

大语言模型

Large Language Model(LLM),也称为大型语言模型
CLIP 对比语言-图像预训练,是一个预训练模型,简称为CLIP。 
    Contrastive Language-Image Pretraining 	 
    OpenAI 在 2021 年推出的 CLIP 模型 模型结构其实非常简单：包括两个部分，即文本编码器和图像编码器。
 GPT的全称，是Generative Pre-Trained Transformer（生成式预训练Transformer模型）
 BERT: Bidirectional Encoder Representation from Transformers

Transformer

Transformer 由两个独立的模块组成，即Encoder和Decoder
 编码器： 一个堆叠N个相同的层。每层由两个子层组成 第一个是多头自注意力机制，第二个是简单的全连接的前馈神经网络。
 解码器 都是堆叠N个相同的层，但是解码器每层有三个子层组成
 
 多头注意力模块的中心部分构建

  CNN 卷积网络是专门用于处理网格化数据
  RNN 循环神经网络是专门用于处理序列 x (1), . . . , x(τ) 的神经网
 
self-attention
    自然语言处理的精度和速度- BERT，GPT2，GPT3， 
	ViT(Vision Transformer)
	 ViT 模型主要由多头注意力模块（MSA）和多层感知机模块（MLP）组成

应用场景

  模型即服务 
 掩膜(Mask 覆盖的特定图像或物体称为掩模或模板 掩膜(mask)就是遮罩,在Photoshop里面就是图层蒙板-抠图
  抠图,一键替换背景

Segment Anything Model (SAM)

https://github.com/facebookresearch/segment-anything
   交互式分割和自动分割
模型整体上包含三个大模块，
   image encoder，prompt encoder和mask decoder。
微调的detectron的ViT  
 patch_embed过后加positional_embedding  feature map transformer block	
 
 图像掩模（image mask）

Stable Diffusion的微调方案：

 扩散模型图像生成的核心是强大的计算机视觉模型。
 根据文本生成图像(text2img) 将文本信息融入扩散过程以控制图片类型

 sd现存多种微调方案：Dreambooth、textual inversion、lora、hyoernetworks、aesthetic embedding

DreamBooth

《微调文本到图像扩散模型，以实现主体驱动生成》 
 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
   DreamBooth 是在 Imagen 的基础上做的调整

参考

 《Attention Is All You Need》		
  https://dreambooth.github.io/	 
  https://github.com/ZrrSkywalker/Personalize-SAM

posted @ 2023-06-27 15:38 辰令阅读(21) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

辰令

辰时令节

AI_Pytorch_Transformer

基本概念

大语言模型

Transformer

应用场景

Segment Anything Model (SAM)

Stable Diffusion的微调方案：

DreamBooth

参考