SNGAN

Miyato T., Kataoka T., Koyama M & Yoshida Y. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS. ICLR, 2018.

通过限制谱范数来限制Lipschitz常数, 但又不像weight normalization 或者其它的正则化方法一样, 本文提出的方法不会丧失过多的灵活性且保持高效.

主要内容

经过WGAN之后, 有许多方法是探讨如何限制Lipschitz常数的, 即

minGmaxfLipKV(G,D),

其中f

f(x,θ)=WL+1aL(WL(aL1(WL1(a1(W1x))))),

D(x,θ)=A(f(x,θ)).

实际上,

fLipi=1L+1σ(Wl),

其中σ为谱范数. 故本文的思想是, 实际使用下面的权重矩阵

W¯SN(W):=W/σ(W),

此时fLip1.

但是, 由于W在训练过程中是变化的, 所以, 作者并不是精确求解σ(W), 采用了一种类似running average的方式, 既然

σ(W)=u1TWv1,

其中u1,v1分别为σ(W)所对应的左特征向量和右特征向量.

image-20201206174226824

作者进一步分析, 经过标准化后的W的梯度的变化

V(G,D)W=1σ(W)(E^[δhT]λu1v1T),

其中λ:=E^[δT(W¯SNh)], δ:=(V(G,D)/(W¯SNh))T . 与原来的梯度仅仅差了后面的一项, 这相当于阻止整个网络仅仅往一个方向学习而产生mode collapse.

实际上, 已经有很多类似的方法了, 一些是在损失函数后面加正则化项, 一些是直接要求多个奇异值的和等于某一个值(WN), 作者认为这些方法会让网络的能力下降, 在某种程度上会迫使权重的奇异值集中在一个维度之上. 还有像正交化的约束, 是能够避免集中在一个维度之上的, 但是这假设所以维度的意义是同等重要, 这个并不合适, 因为谱不一致是有意义的.

posted @   馒头and花卷  阅读(440)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示