[Paper Reading] VQ-VAE: Neural Discrete Representation Learning

名称

VQ-VAE: Neural Discrete Representation Learning
时间：17.11
机构：Google

TL;DR

VQ全称为Vector Quantised，故名思义，本文相对于VAE最大改进是将VAE的latent representation由连续建模为离散。后续stable diffsusion也使用VQ-VAE进行编解码。

Method

如何离散化？
使用K-means在线聚类embedding space，如架构图fig1所示，encoder在线提取好连续latent feature之后，使用最近邻类别中心作为其离散值，并通过EMA在线更新聚类中心embedding space，所以AE的训练与embedding space的更新是交替进行的，本质上一个在线KMeans算法详细参考Appendix。
梯度反传如何处理？
由上图红色箭头所示，梯度反传时直接将decoder的梯度拷贝给encoder，并没有参考类似于QAT那种梯度反传(实际上也无法直接参考，因为是聚类中心的离散化，而非数值的离散化)，作者表示这么简单粗暴的处理实验证明效果也不错。
Loss如何设计？
如下公式所示，第一项为重建loss可优化encoder与decoder，第二项不产生梯度，第三项用来优化encoder产生靠近聚类中心的特征。

Q: 训练完成后如何生成图像？
文中提到利用Pixel-CNN生成latent feature，是一种基于auto-regressive的序列生成方案，原理类似于下图。

为什么要离散化？

离散表示与自回归模型（如Transformer）兼容，支持逐符号生成，适用于文本或图像生成任务。
离线特征经过预训练优化，减少了训练扩散模型时的噪声干扰，提升了生成结果的稳定性和细节质量。
离散潜在空间更易实现特征解耦，每个码本向量可对应数据中的特定模式。

Experiment

效果与连续版本的VAE相当，但是可以将图像压缩到更小的space空间，比如 128 × 128 × 3 image space -> 32 × 32 × 1 ，方便一些agressive regression任务直接在discrete latent space上进行，从而节省计算量。

总结与发散

论文名称的VQ全称为Vector Quantised，但个人认为，这里Quantised翻译为“量化”不如翻译成“聚类”更容易理解，只不过每个聚类中心是一个latent space的feature map。
Q：与SD有什么关系？
看到实验部分，就比较容易联想到为什么LDM可以用VQ-VAE了，因为这里已经开始在latent space做PixelCNN了。

资料查询

折叠Title

**Q: 为什么要离散化？** 经典VAE框架通常会面临“posterior collapse”的问题，VQ-VAE能解决该问题。 FromChatGPT(提示词：XXX)

posted @ 2024-03-26 00:12 fariver 阅读(439) 评论(0) 收藏举报

刷新页面返回顶部

fariver