[论文速览] Separating Style and Content for Generalized Style Transfer
Pre
title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none
关键词: style transfer, chinese typeface transfer, font geration
阅读理由: 回顾经典
Idea
将图片解耦成内容和风格两种特征,两两组合以生成具有一方内容与另一方风格的图片
Motivation
现有的风格迁移方法显式学习某种源风格到目标风格的变换,无法泛化到新风格
图1 本文提出的EMD模型的框架
Background
相关工作分三部分介绍:
- Neural Style Transfer
- Image-to-Image Translation
- Character Style Transfer
表1 EMD与现存方法的比较
Method(Model)
Overview
图2 EMD做风格迁移的详细架构
Encoder Network
原文讲得很细,略
Mixer Network
提到 Mixer 是一个双线性模型(bilinear model)
双线性:对函数\(f(x, y)\),当固定其中一个参数(x)时,\(f(x, y)\)对另一个参数(y)是线性的
实际上这个模型似乎只有一个简单的可学习参数\(W\),对内容C风格S按下式进行融合:
对照图2看能发现通过W能够将维度不同的内容(\(1\times B\))风格(\(1\times R\))融合为任意维度的F
(\(1\times K\)),还挺方便,看起来是相加和拼接的进阶版?
Decoder Network
多层 Deconvolution-BatchNorm-ReLU 上采样
Loss
使用加权的L1损失函数(weighted L1 loss)作为生成损失(generation loss),用于衡量生成的图像与目标图像之间的差异。比起L2,L1损失倾向于产生更清晰、更干净的图像。函数定义如下:
公式4-5
其中 \(W^{ij}_{st}\) 和 \(W^{ij}_{b}\) 是两个权重,用于缓解目标集中由随机采样引起的不平衡。这两个权重分别关于字符的大小和厚度(\(W^{ij}_{st}\))以及字符的黑暗程度(\(W^{ij}_{b}\))。
因为每个迭代中目标图片的尺寸和厚度都会改变,模型主要优化那些有更多的像素的图片,例如那些更大更厚的汉字。
作者定义 \(W^{ij}_{st}\) 为每个目标图像中黑色像素数量的倒数。对于 \(W^{ij}_{b}\) ,作者计算每个目标图像中黑色像素的平均值,并计算其 softmax 权重。但是什么叫做黑像素的平均值(mean value of the black pixels)?难道是考虑每个图片里黑色像素有的略大于0,并非完全0/255的二元图片?
公式6-7
这种损失函数的选择是基于字符字体迁移问题的特点,L1损失倾向于产生更清晰、更干净的图像。通过引入这些权重,模型在训练过程中能够更好地处理不同大小和厚度的字符,以及不同黑暗程度的字符,从而提高生成图像的质量。
Experiment
Settings
详细讲了网络的配置,略
值得注意的是该模型需要风格参考也要内容参考,两者都要多张输入,由同一个参数r控制,也就是每次生成需要r张风格r张内容参考图片
Dataset
832 字体,每个有 1732 汉字,图片分辨率80x80
图3 数据集划分示意图,目标图片选择和参考集构建
数据集划分为图3所示的D1~D4四部分,红叉是目标图片,同一行的橙色圈是它的参考风格图片,而同一列的绿色圈则是它的参考内容图片
Influence of the Training Set Size
图4 D1~D4的生成结果(从左上到右下),TG: 目标图片, O1: Nt=20k的输出, O2: Nt=50k的输出, O3: Nt=100k的输出, O4: Nt=300k的输出, O5: Nt=500k的输出。固定r=10
Influence of the Reference Set Size
图5 参考图片数量的影响(从左上到右下D1~D4),TG: 目标图片, O1: r=5的输出, O2:
Effect of the Skip-connection
图6 跳跃连接的影响(从左上到右下D1~D4),TG: 目标图片, O1: 没跳跃连接的输出, O2:
Validation of Style and Content Separation
图7 风格抽取的验证 CR:内容参考 TG:目标图片 O1~O3分别由CR和三组不同的风格参考生成
图8 内容抽取的验证 SR:风格参考 TG:目标图片 O1~O3分别由SR和三组不同的内容参考生成
作者认为图7说明风格编码器抽取很准确,能抽取出稳定的特征以生成相似的结果,对图8也是类似的理解。如果像CF-Font那样分析内容字形与目标字形的风格相似性或许能发现,内容字形会严重影响结果。可能这里内容字形太多,导致抽取的特征较为平均,以及图片分辨率也小,体现不出影响。
Comparison with Baseline Methods
图9 和baseline的比较,所有模型使用相同数量的图片对来训练
图10 生成新风格新内容的比较。模型名后面的数字对于EMD(有泛化能力无需重新训练)来说是参考图片数量,对于baseline来说是训练的图片对数量
Conclusion
略
Critique
跟同期的SA-VAE相比,训练数据更多,图片更清晰美观,对比的baseline更多,贡献更直接且集中,指出了解耦的作用。而SA-VAE多了关于汉字结构信息的使用,而且用的是VAE,实验多了插值、其他语言文字生成
本文对内容也需要多张参考图片,而后续工作似乎想降低开销,固定了一种字体作为源字体来提供内容图片