2017CVPR: Deep Photo Style Transfer
今天和大家分享的这篇论文是实验室一个小学妹正在研究的内容,之前也有过一些讨论,所以就趁着这个机会把论文翻出来和大家共享一下,有些不足之处还请大家多多指正。不了解Neural Style Transfer(NST) 的伙伴们可以结合我们之前专栏里的其他博客一起食用【专栏——深度学习与艺术】。这篇论文发表于2017年CVPR,是Cornell康奈尔大学和Adobe公司联合研究的,据说会在photoshop上加入这个应用(设计师的福音!!!,不过好像至今也没有上线?),不过先放上一张成果图大家来直观感受一下Deep Photo Style Transfer的效果⬇️。
此外,按照老规矩来感受一下大神作者们⬇️的超高能力!
我们就来fellow一下一作吧,Fujun Luan【个人主页】,中国清华大学毕业,在康奈尔大学留学,是Graphics and Vision Group组的PhD,2017年在Adobe Research做实习生,2020年收到了Facebook Reality Labs的实习生offer,大神的实力果真令人瑟瑟发抖。
Paper:Deep Photo Style Transfer
Code:【Torch implementation】(这是原作者公布的代码,up to 9.5k stars)),【TensorFLow implementation】
Abstract 摘要
本文介绍了一种用于摄影风格转换的深度学习方法,该方法可处理多种图像内容,同时忠实地传递参考风格。 我们的方法基于最近的绘画转移工作,该工作通过考虑神经网络的不同层来将样式与图像内容分开。 但是,按原样,此方法不适用于逼真的样式转换。 即使输入图像和参考图像都是照片,输出仍会呈现出画作的失真。 我们的贡献是限制从输入到输出的转换在色彩空间中是局部仿射的,并将此约束表示为自定义的完全可微分的能量项。 我们证明了这种方法可以在多种情况下成功地抑制失真并产生令人满意的逼真的样式转移,包括一天中时间,天气,季节和艺术编辑的转移。(附上原文)
This paper introduces a deep-learning approach to photographic style transfer that handles a large variety of image content while faithfully transferring the reference style. Our approach builds upon the recent work on painterly transfer that separates style from the content of an image by considering different layers of a neural network. However, as is, this approach is not suitable for photorealistic style transfer. Even when both the input and reference images are photographs, the output still exhibits distortions reminiscent of a painting. Our contribution is to constrain the transformation from the input to the output to be locally affine in colorspace, and to express this constraint as a custom fully differentiable energy term. We show that this approach successfully suppresses distortion and yields satisfying photorealistic style transfers in a broad variety of scenarios, including transfer of the time of day, weather, season, and artistic edits.
Method 方法
Introduction的部分就不详细介绍了,主要是作者做了一下NST的review和本篇论文想解决的问题是什么,作者在Introduction中提到了对于相片的风格转化主要面临着两个问题:
- 结构保留。一方面,我们想要获得非常强烈的局部效果,比如,打开摩天大楼上的某个窗户的灯光,如图1所示。另外一方面,这些效果不应该扭曲边缘和规则的图案,例如,窗口仍然保持网格对齐。形式上,我们寻找一种可以强烈改变图像颜色,却没有任何几何变化的效果,比如没有移动或扭曲。
- 语义精度和迁移保真度。现实世界场景的复杂性提出了另一个挑战:转移应尊重场景的语义。例如,在城市景观中,建筑物的外观应该与建筑物相匹配,天空和天空相匹配;不能让天空看起来像建筑物。一个合理的方法是用风格图像中最相似的区域匹配每个输入神经区域,以尽量减少不准确转移的可能性。
根据这两个问题,我们来看一下提出的方法。同大多数的NST算法一样,模型的输入需要一张风格图像和一张内容图像,想得到的是一张具有风格化的内容图像。我们的方法通过引入两个核心思想(与问题是一一对应的) 来增强神经风格算法。
- 我们在优化过程中在目标函数中提出了写实正则化项,以约束重构图像由输入的局部仿射颜色变换表示,以防止失真。
- 我们基于输入的语义分割为样式转换过程引入了可选指南,以避免出现内容不匹配问题,从而大大提高了结果的真实感。
Background:Neural Style Algorithm by Gatys et al.
下图是Neural Style在优化过程中的损失函数, L t o t a l L_{total} Ltotal是总损失, L c L_{c} <