论文阅读笔记large scale gan training for high fidelity natural image synthesis(biggan)
主要包括谱归一化(Spectral Normalization)、截断技巧(Truncation Trick)和正交正则化(orthogonal regularization)
一、创新点:
(一) 本文对网络结构进行了两个修改,改善了可扩展性(scalability);修改了正则化方法(regularization)提高了条件化性能(conditioning)。结果证明了扩大GAN模型的规模(多2-4倍参数,8倍batchsize)能够大幅度提高性能。
(二)本文对模型的修改使得模型可以使用一种截断技巧(truncation trick),即使用简单的采样技术实现对采样多样性(variety)和保真度(fidelity)之间的权衡的精确控制。
(三)本文发现了大规模GAN所特有的不稳定性,证明了结合已有的和新的技术能够降低这些不稳定性,但是要以性能的代价来实现整个的训练过程的稳定性。
Truncation Trick
之前GAN的生成的输入噪声采样自某个先验分布z zz,一般情况下都是选用标准正态分布N ( 0 , I ) N(0,I)N(0,I) 或者均匀分布U [ − 1 , 1 ] U[−1,1]U[−1,1]。所谓的“截断技巧”就是通过对从先验分布 z zz 采样,通过设置阈值的方式来截断 z 的采样,其中超出范围的值被重新采样以落入该范围内。这个阈值可以根据生成质量指标 IS 和 FID 决定。
我们可以根据实验的结果好坏来对阈值进行设定,当阈值的下降时,生成的质量会越来越好,但是由于阈值的下降、采样的范围变窄,就会造成生成上取向单一化,造成生成的多样性不足的问题。往往 IS 可以反应图像的生成质量,FID 则会更假注重生成的多样性。
例如在文中作者也给出了使用截断技巧的实验结果图,其中从左到右,阈值=2,1.5,1,0.5,0.04
从结果可以看出,随着截断的阈值下降,生成的质量在提高,但是生成也趋近于单一化。所以根据实验的生成要求,权衡生成质量和生成多样性是一个抉择,往往阈值的下降会带来 IS 的一路上涨,但是 FID 会先变好后一路变差。
orthogonal regularization
同时作者还发现,在一些较大的模型中嵌入截断噪声会产生饱和伪影saturation artifacts
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码