计算机视觉任务(二)
Generative Models#
给定来自感兴趣分布的观察到的样本
对于许多模态,我们可以认为我们观察到的数据是由相关的看不见的潜在变量表示或生成的,我们可以用随机变量
类似地,我们在实际世界中遇到的对象也可以作为某些更高级表示的函数生成; 例如,此类表示可以封装抽象属性,例如颜色,大小,形状等。那么,我们观察到的东西就可以解释为这种抽象概念的三维投影或实例化,就像洞穴人观察到的东西实际上是三维物体的二维投影一样。尽管洞穴人永远看不到 (甚至完全理解) 隐藏的物体,但他们仍然可以对它们进行推理和推论; 以类似的方式,我们可以近似描述我们观察到的数据的潜在表示。
柏拉图的寓言说明了潜在变量背后的思想,即确定观测值的潜在不可观察的表示形式,而这种类比的一个警告是,在生成建模中,我们通常寻求学习低维的潜在表示形式,而不是高维的表示形式。这是因为尝试学习比观察更高维度的表示是没有强烈先验的徒劳的尝试。另一方面,学习低维延迟也可以看作是一种压缩形式,并且可以潜在地发现描述观察结果的语义上有意义的结构。
图像生成模型的本质:把简单分布(normal distribution 或者 uniform distribution)对应到一张张的图像上
文字条件, 图像,学习 是很困难的,不能拿高斯分布或者任何分布表示,怎么近似表达出整个分布是生成模型的核心。
Autoregressive Model#
https://openai.com/blog/imgae-gpt/
拉成一排 ,一排一排的生成像素
Variational Auto-encoder (VAE)#
将图像和分布对应训练 一个decoder 和一个 encoder
Flow-based Generative Model#
刻意限制神经网络的架构 ,encoder是可逆的,输入和输出是一致大小的
Diffusion Model#
Denoising Diffusion Probabilistic Models (DDPM)
https://arxiv.org/abs/2006.11239
Stable Diffusion
https://arxiv.org/abs/2112.10752
DALL-E series
https://arxiv.org/abs/2204.06125
https://arxiv.org/abs/2102.12092
Imagen
https://arxiv.org/abs/2205.11487
Generative Adversarial Network (GAN)#
学习一个decoder,在训练一个discriminator,去判断是否是真的图片,即图像的分布是否一样
评价指标#
FID 值:评估图像生成模型的好坏,用预训练的CNN生成特征向量latent,假设真和假都是高斯分布,算两个高斯分布的距离frechet distance
CLIP值:Contrastive language-image pre-trainimg,文字输入文字编码器,图像输入图像编码器,看两个距离远不远。
VAE + GAN https://arxiv.org/abs/1512.09300
Flow +GAN https://arxiv.org/abs/1705.08868
Diffusion +GANhttps://arxiv.org/abs/2206.02262
学习问题--如何找到最大化似然函数 #
1. 显式的建模(设定了 的形式)#
1.1 精确建模#
- 不含隐变量 Autoregressive Model
- 含有隐变量 Flow-based Model
1.2 近似建模#
- 变分推断 VAE
- 采样 MCMC
- 扩散模型 Diffusion Model
2. 隐式的建模(不关系 的形式)#
- 直接建模 GAN
- 简介建模 (MC)GSN
一个生成模型通用的框架#
文字、semantic map、representation等条件输入Text Encoder
然后和image(选带噪音)一起塞到Generative Model(可以是任何生成模型)
生成一个中间产物(类似于图像的压缩版本或者带噪音的版本或者特征表示)
然后将这个中间产物输入到Decoder(可以是超分辨率,可以是去噪,任意类型任意个数的Decoder),恢复出图像
作者:JiJunhao
出处:https://www.cnblogs.com/jijunhao/p/17364243.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)