Miyato T., Kataoka T., Koyama M & Yoshida Y. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS. ICLR, 2018.
概
通过限制谱范数来限制Lipschitz常数, 但又不像weight normalization 或者其它的正则化方法一样, 本文提出的方法不会丧失过多的灵活性且保持高效.
主要内容
经过WGAN之后, 有许多方法是探讨如何限制Lipschitz常数的, 即
minGmax∥f∥Lip≤KV(G,D),
其中f为
f(x,θ)=WL+1aL(WL(aL−1(WL−1(⋯a1(W1x)⋯)))),
D(x,θ)=A(f(x,θ)).
实际上,
∥f∥Lip≤L+1∏i=1σ(Wl),
其中σ为谱范数. 故本文的思想是, 实际使用下面的权重矩阵
¯WSN(W):=W/σ(W),
此时∥f∥Lip≤1.
但是, 由于W在训练过程中是变化的, 所以, 作者并不是精确求解σ(W), 采用了一种类似running average的方式, 既然
σ(W)=uT1Wv1,
其中u1,v1分别为σ(W)所对应的左特征向量和右特征向量.

作者进一步分析, 经过标准化后的W的梯度的变化
∂V(G,D)∂W=1σ(W)(^E[δhT]−λu1vT1),
其中λ:=^E[δT(¯WSNh)], δ:=(∂V(G,D)/∂(¯WSNh))T . 与原来的梯度仅仅差了后面的一项, 这相当于阻止整个网络仅仅往一个方向学习而产生mode collapse.
实际上, 已经有很多类似的方法了, 一些是在损失函数后面加正则化项, 一些是直接要求多个奇异值的和等于某一个值(WN), 作者认为这些方法会让网络的能力下降, 在某种程度上会迫使权重的奇异值集中在一个维度之上. 还有像正交化的约束, 是能够避免集中在一个维度之上的, 但是这假设所以维度的意义是同等重要, 这个并不合适, 因为谱不一致是有意义的.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix