StyleMapGAN 继 StyleGAN2 发扬光大
https://github.com/naver-ai/StyleMapGAN
https://arxiv.org/pdf/2104.14754.pdf
相关实验【预训练模型测试】
StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing | 测试实验记录【一】
StyleMapGAN | celeba_hq 风格迁移 - 图像编辑 测试 | 测试实验记录【二】
论文题目
Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing
论文摘要
生成对抗网络 (GAN) 从随机潜在向量合成逼真的图像。 尽管操纵潜在向量控制了合成输出,但使用 GAN 编辑真实图像存在以下问题:i) 将真实图像投影到潜在向量的优化耗时,ii) 或通过编码器嵌入不准确。 我们提出 StyleMapGAN:中间潜在空间具有空间维度,并且空间变体调制替代了 AdaIN。 它使通过编码器的嵌入比现有的基于优化的方法更准确,同时保持 GAN 的特性。 实验结果表明,我们的方法在各种图像处理任务(例如本地编辑和图像插值)中明显优于最先进的模型。 最后但并非最不重要的一点是,GAN 上的传统编辑方法在我们的 StyleMapGAN 上仍然有效。
1. Introduction
生成式对抗网络(GANs)[16]近年来发展迅速,可以通过直接从数据中学习模型来实现高保真图像合成[6,25,26]。最近的研究表明,gan可以自然地学习在潜在空间内编码丰富的语义,从而改变潜在代码导致对输出图像的相应属性进行操作[22,47,17,15,48,3,57,5]。然而,由于GAN缺乏从图像到相应潜在代码的逆映射,因此将这些操作应用于真实图像仍然具有挑战性。
一种很有前途的处理真实图像的方法是图像到图像的转换[21,64,9,27,29],其中模型学会在给定用户输入的情况下直接合成输出图像。然而,这些方法需要预先定义的任务和严格的监督(例如,输入-输出对,类标签)来训练和限制用户在推理时的可控性。另一种方法是通过直接优化单个图像的潜在代码来利用预训练的GAN模型[1,2,63,37,41]。但是,即使在高端gpu上,每幅目标图像都需要数分钟的计算时间,并且不能保证 optimized code 会被放置在GAN的原始 latent space。
一种更实用的方法是训练一个额外的编码器,该编码器学会将图像投射到其相应的潜码中[34,62,44,36,45]。虽然这种方法能够以单一的前馈方式实现实时投影,但其缺点是投影图像保真度低(即丢失目标图像的细节)。我们把这种限制归因于潜在空间中空间维度的缺失。没有空间维度,编码器将图像的局部语义以纠缠的方式压缩为向量,使图像难以重构(例如,基于向量的或低分辨率的瓶颈层不能产生高频细节[33,8])。
为了解决这些问题,我们提出了StyleMapGAN,它利用了stylemap,一种新的潜在空间表示。我们的核心理念很简单。我们使用一个具有明确空间维度的张量,而不是学习一个基于向量的 latent representation 。我们所提出的表示方式得益于其空间维度,使gan能够轻松地将图像的局部语义编码到潜在空间中。该特性允许编码器有效地将图像投射到潜在空间,从而提供高保真度和实时投影。我们的方法还提供了一种新的功能,通过操纵样式图的匹配位置来编辑图像的特定区域。
图1显示了我们的本地编辑和本地语义操作结果。注意,所有的编辑都是实时完成的。如图2所示,您可以测试我们的web演示来进行交互式编辑。
在多个数据集上,与传统的基于向量的 latent representation 相比,我们的样式图确实大大提高了投影质量(4.3)。此外,我们还展示了我们的方法在图像投影、插值和局部编辑方面的优势。4.5)。最后,我们证明了我们的方法可以移植区域,即使区域之间没有对齐(4.6)。
2. Related work
Optimization-based editing methods 迭代更新预训练 GAN 的潜在向量以将真实图像投影到潜在空间 [63, 7, 1, 62, 20, 4]。 例如,Image2StyleGAN [1] 通过优化 StyleGAN [25] 每一层的中间表示来重建图像。 In-DomainGAN [62] 不仅侧重于在像素空间中重建图像,还侧重于将倒置代码落地到原始潜在空间的语义域中。 Neural Collage [53] 和 pix2latent [20] 提出了一种混合优化策略,用于将图像投影到类条件 GAN(例如 BigGAN [6])的潜在空间中。 另一方面,我们利用了一个编码器,这使得编辑速度比优化方法快两到三个数量级。
Learning-based editing methods 训练额外的编码器以直接推断给定目标图像的潜在代码 [34, 13, 12, 14, 45]。例如,ALI [14] 和 BiGAN [12] 引入了一个完全对抗性的框架来共同学习生成器和逆映射。为了将变分自动编码器 [32] 与 GAN 结合起来进行潜在投影,已经进行了多项工作 [34, 51, 55]。 ALAE [45] 构建了一个编码器来预测 StyleGAN 的中间潜在空间。然而,由于缺乏潜在空间的空间维度,所有上述方法提供的重建质量有限。 Swap Autoencoder [43] 学习将图像编码为两个组件,结构代码和纹理代码,并在给定任何交换组合的情况下生成逼真的图像。尽管由于这种表示它可以快速准确地重建图像,但纹理代码仍然是一个向量,这使得结构化纹理传输具有挑战性。我们的编辑方法不仅成功地反映了颜色和纹理,而且还反映了参考图像的形状。
Local editing methods 处理编辑特定部分 [11, 3, 65, 60, 49](例如鼻子、背景),而不是大多数基于 GAN 的图像编辑方法修改全局外观 [47, 57, 43]。 例如,Editing in Style [11] 试图识别每层风格向量对特定部分的每个通道的贡献。 Structured Noise [3] 用输入张量替换了来自 StyleGAN 的学习常数,输入张量是局部和全局代码的组合。 然而,这些方法 [11, 3, 5] 不针对真实图像,其性能在真实图像中显着降低。 SEAN [65] 通过将图像编码为每个区域的样式代码并对其进行操作来促进编辑真实图像,但它需要成对的图像和分割掩码进行训练。 此外,样式代码仍然是一个向量,因此它与 Swap Autoencoder [43] 存在相同的问题。
3. StyleMapGAN
我们的目标是将图像精确投影到一个潜在空间与编码器在实时和局部操作的图像上的潜在空间。我们提出了StyleMapGAN,它采用了stylemap,一个具有空间维度的中间潜在空间,以及一个基于stylemap(3.1)的空间变型调制。注意,样式不仅表示纹理(精细样式),还表示形状(粗糙样式)。现在,编码器可以将图像嵌入到stylemap中,这比基于优化的方法更准确地重建图像,而stylemap中的部分更改会导致图像的局部编辑(3.3)。
3.1. Stylemap-based generator
Figure 3描述了提议的基于样式图的生成器。传统的映射网络生成样式向量来控制特征图,而我们创建了具有空间维度的样式图,这不仅使真实图像的投影在推理方面更有效,而且还可以进行局部编辑。映射网络的最后有一个重塑层来产生样式映射,该样式映射形成对空间变化的仿射参数的输入。由于合成网络中的特征图随着距离输出图像越近而增大,我们引入了一个由卷积和上采样组成的样式图调整器来匹配样式图的分辨率和特征图的分辨率。样式映射调整器通过学习到的卷积来调整和转换样式映射,以传达更详细和结构化的样式。
3.2. Training procedure and losses
3.3. Local editing
如图4底部所示,本地编辑的目标是将参考图像的某些部分相对于掩码移植到原始图像,这表示要修改的区域。
注意,掩码可以是任何形状,允许使用语义分割方法进行交互式编辑或基于标签的编辑。
4. Experiments
实验部分,重要的是图文效果对比,直接查阅论文即可
4.1. Experimental setup
4.2. Evaluation metrics
- Frechet inception distance (FID).
- FIDlerp.
- MSE & LPIPS.
- Average precision (AP).
- MSEsrc & MSEref.
4.3. Effects of stylemap resolution
4.4. Real image projection
4.5. Local editing
4.6. Unaligned transplantation
有趣的实验结果
换起来
5. Discussion and Conclusion
GAN的可逆性对于在实际应用中使用非条件的GAN模型编辑真实图像是至关重要的,但这一问题还没有得到适当的解决。为了实现这一目标,我们提出了StyleMapGAN,它向潜在空间引入了明确的空间维度,称为样式映射。
我们通过广泛的评估表明,我们基于样式图的方法与先前的方法相比具有许多优势。 它可以将真实图像实时准确地投影到潜在空间中,并通过插值和本地编辑合成高质量的输出图像。 我们相信,通过将我们的 latent representation 应用于其他方法(例如条件 GAN(例如 BigGAN [6])或变分自动编码器 [32])来提高保真度将是令人兴奋的未来工作。