Perception Prioritized Training of Diffusion Models

Choi J., Lee J., Shin C., Kim S., Kim H. and Yoon S. Perception prioritized training of diffusion models. In IEEE Computer Vision and Pattern Recognition Conference (CVPR), 2022.

作者认为, 在 diffusion 过程中, SNR(t) 还比较小的时候给予更多权重去学习更有利于整体的学习, 遂提出了一种新的加权方法.

Motivation

  • 前向:

    q(xt|xt1)=N(xt;1βtxt1,βtI),

    q(xt|x0)=N(xt;α¯tx0,(1α¯t)I),α¯:=τ=1tατ,ατ:=1βτ.

  • 对于分布 N(μ,σ2) 而言, 它的信噪比为:

    SNR:=μ2σ2,

    在概场景下, 前向的过程:

    SNR(t)=α¯t1α¯t,

    随着 t 的增加逐渐减小.

  • 一般来说, DPM 中的 consistent term 为:

    Lt=Ex0,ϵ[(1αt)αt(1α¯t1)ϵθ(xt,t)ϵ2],

    然后总的损失为:

    LVLB=tLt.

  • 但是一般来说, 实际上用的是:

    Lsimple=tλtLt,λt=αt(1α¯t1)/(1αt),

    这相当于把 MSE 前的系数都给去掉了. 当然, 这种损失虽然能够平衡方差, 让训练更加稳定, 但是也缺少学习的侧重性, 很难认为训练过程中所有的阶段都是同等重要的.

  • 所以本文希望把 SNR 引入进来. 如下图所示 (注意, 横坐标 SNR 增加, 对应的 t 是减小的, 所以从生成的角度来说是从左往右的生成), xtA,xtB 源于同一个图片, xtA,xt 来源于不同的图片, 随着图片的生成, 相同图片的更加近似, 而源于不同图片的两张图片会逐渐变得不同. 换言之, 在 SNR 很小的阶段, 图片需要学习更多的内容 (content), 那么自然地我们应该强调这一部分.

本文的方法

  • 引入特殊的权重:

    λt=λt(k+SNR(t))γ

    于是最后的损失就成了:

    L=tλtLt.

  • 下图是在两种不同的 schedule 下的结果, 显然更加注重 content 部分的权重.

  • 作者推荐是 k=1,γ=1.

代码

official

posted @   馒头and花卷  阅读(218)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示