[论文速览] Separating Style and Content for Generalized Style Transfer

Pre

title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none

关键词: style transfer, chinese typeface transfer, font geration
阅读理由: 回顾经典

Idea

将图片解耦成内容和风格两种特征,两两组合以生成具有一方内容与另一方风格的图片

Motivation

现有的风格迁移方法显式学习某种源风格到目标风格的变换,无法泛化到新风格

图1 本文提出的EMD模型的框架

Background

相关工作分三部分介绍:

  1. Neural Style Transfer
  2. Image-to-Image Translation
  3. Character Style Transfer

表1 EMD与现存方法的比较

Method(Model)

Overview

图2 EMD做风格迁移的详细架构

Encoder Network

原文讲得很细,略

Mixer Network

提到 Mixer 是一个双线性模型(bilinear model)

双线性:对函数\(f(x, y)\),当固定其中一个参数(x)时,\(f(x, y)\)对另一个参数(y)是线性的

实际上这个模型似乎只有一个简单的可学习参数\(W\),对内容C风格S按下式进行融合:

\[F_{ij} = S_{i}\bold{W}C_{j} \tag{3} \]

对照图2看能发现通过W能够将维度不同的内容(\(1\times B\))风格(\(1\times R\))融合为任意维度的F
(\(1\times K\)),还挺方便,看起来是相加和拼接的进阶版?

Decoder Network

多层 Deconvolution-BatchNorm-ReLU 上采样

Loss

使用加权的L1损失函数(weighted L1 loss)作为生成损失(generation loss),用于衡量生成的图像与目标图像之间的差异。比起L2,L1损失倾向于产生更清晰、更干净的图像。函数定义如下:

公式4-5

其中 \(W^{ij}_{st}\)\(W^{ij}_{b}\) 是两个权重,用于缓解目标集中由随机采样引起的不平衡。这两个权重分别关于字符的大小和厚度(\(W^{ij}_{st}\))以及字符的黑暗程度(\(W^{ij}_{b}\))。

因为每个迭代中目标图片的尺寸和厚度都会改变,模型主要优化那些有更多的像素的图片,例如那些更大更厚的汉字。

作者定义 \(W^{ij}_{st}\) 为每个目标图像中黑色像素数量的倒数。对于 \(W^{ij}_{b}\) ,作者计算每个目标图像中黑色像素的平均值,并计算其 softmax 权重。但是什么叫做黑像素的平均值(mean value of the black pixels)?难道是考虑每个图片里黑色像素有的略大于0,并非完全0/255的二元图片?

公式6-7

这种损失函数的选择是基于字符字体迁移问题的特点,L1损失倾向于产生更清晰、更干净的图像。通过引入这些权重,模型在训练过程中能够更好地处理不同大小和厚度的字符,以及不同黑暗程度的字符,从而提高生成图像的质量。

Experiment

Settings

详细讲了网络的配置,略

值得注意的是该模型需要风格参考也要内容参考,两者都要多张输入,由同一个参数r控制,也就是每次生成需要r张风格r张内容参考图片

Dataset

832 字体,每个有 1732 汉字,图片分辨率80x80

图3 数据集划分示意图,目标图片选择和参考集构建

数据集划分为图3所示的D1~D4四部分,红叉是目标图片,同一行的橙色圈是它的参考风格图片,而同一列的绿色圈则是它的参考内容图片

Influence of the Training Set Size

图4 D1~D4的生成结果(从左上到右下),TG: 目标图片, O1: Nt=20k的输出, O2: Nt=50k的输出, O3: Nt=100k的输出, O4: Nt=300k的输出, O5: Nt=500k的输出。固定r=10

Influence of the Reference Set Size

图5 参考图片数量的影响(从左上到右下D1~D4),TG: 目标图片, O1: r=5的输出, O2:

r=10的输出, O3: r=15的输出. 固定Nt=300k

Effect of the Skip-connection

图6 跳跃连接的影响(从左上到右下D1~D4),TG: 目标图片, O1: 没跳跃连接的输出, O2:

有跳跃连接的输出, O3: r=15的输出. 固定Nt=300k,r=10

Validation of Style and Content Separation

图7 风格抽取的验证 CR:内容参考 TG:目标图片 O1~O3分别由CR和三组不同的风格参考生成

图8 内容抽取的验证 SR:风格参考 TG:目标图片 O1~O3分别由SR和三组不同的内容参考生成

作者认为图7说明风格编码器抽取很准确,能抽取出稳定的特征以生成相似的结果,对图8也是类似的理解。如果像CF-Font那样分析内容字形与目标字形的风格相似性或许能发现,内容字形会严重影响结果。可能这里内容字形太多,导致抽取的特征较为平均,以及图片分辨率也小,体现不出影响。

Comparison with Baseline Methods

图9 和baseline的比较,所有模型使用相同数量的图片对来训练

图10 生成新风格新内容的比较。模型名后面的数字对于EMD(有泛化能力无需重新训练)来说是参考图片数量,对于baseline来说是训练的图片对数量

Conclusion

Critique

跟同期的SA-VAE相比,训练数据更多,图片更清晰美观,对比的baseline更多,贡献更直接且集中,指出了解耦的作用。而SA-VAE多了关于汉字结构信息的使用,而且用的是VAE,实验多了插值、其他语言文字生成

本文对内容也需要多张参考图片,而后续工作似乎想降低开销,固定了一种字体作为源字体来提供内容图片

本文作者:心有所向,日复一日,必有精进

本文链接:https://www.cnblogs.com/Stareven233/p/18030065

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   NoNoe  阅读(206)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 Relaxロウきゅーぶ 渡辺剛
  2. 2 カントリーマーチ 栗コーダーカルテット
  3. 3 BGM-M7 かみむら周平
  4. 4 八百万の風が吹く Foxtail-Grass Studio
  5. 5 雲流れ Foxtail-Grass Studio
  6. 6 Melody 梶浦由記
  7. 7 ロック风アレンジ Angel Beats
  8. 8 ヨスガノソラ メインテーマ -遠い空へ- Bruno Wen-li
  9. 9 Servante du feu Matthieu Ladouce
  10. 10 Lost my pieces (Piano Ver.) 橋本由香利
  11. 11 潮鳴り 折戸伸治
  12. 12 雪風 Foxtail-Grass Studio
  13. 13 Bloom of Youth 清水淳一
  14. 14 落月随山隐 饭碗的彼岸,夜莺与玫瑰
  15. 15 Autumn Journey Eric Chiryoku
  16. 16 Alpha C418
  17. 17 Money之歌 神楽Mea
八百万の風が吹く - Foxtail-Grass Studio
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

暂无歌词