StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing | 翻译笔记

StyleMapGAN是一种新型的生成对抗网络,通过引入具有空间维度的StyleMap来解决真实图像到潜在空间的精确投影问题。与传统方法相比,StyleMapGAN的编码器能更准确地进行实时投影,且支持局部编辑。实验表明,StyleMapGAN在图像投影、插值和编辑任务中表现出优越性能,同时兼容传统编辑方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


StyleMapGAN 继 StyleGAN2 发扬光大


https://github.com/naver-ai/StyleMapGAN

https://arxiv.org/pdf/2104.14754.pdf

相关实验【预训练模型测试】

StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing | 测试实验记录【一】

StyleMapGAN | celeba_hq 风格迁移 - 图像编辑 测试 | 测试实验记录【二】

论文题目

Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing

论文摘要


生成对抗网络 (GAN) 从随机潜在向量合成逼真的图像。 尽管操纵潜在向量控制了合成输出,但使用 GAN 编辑真实图像存在以下问题:i) 将真实图像投影到潜在向量的优化耗时,ii) 或通过编码器嵌入不准确。 我们提出 StyleMapGAN:中间潜在空间具有空间维度,并且空间变体调制替代了 AdaIN。 它使通过编码器的嵌入比现有的基于优化的方法更准确,同时保持 GAN 的特性。 实验结果表明,我们的方法在各种图像处理任务(例如本地编辑和图像插值)中明显优于最先进的模型。 最后但并非最不重要的一点是,GAN 上的传统编辑方法在我们的 StyleMapGAN 上仍然有效。


1. Introduction


生成式对抗网络(GANs)[16]近年来发展迅速,可以通过直接从数据中学习模型来实现高保真图像合成[6,25,26]。最近的研究表明,gan可以自然地学习在潜在空间内编码丰富的语义,从而改变潜在代码导致对输出图像的相应属性进行操作[22,47,17,15,48,3,57,5]。然而,由于GAN缺乏从图像到相应潜在代码的逆映射,因此将这些操作应用于真实图像仍然具有挑战性。

一种很有前途的处理真实图像的方法是图像到图像的转换[21,64,9,27,29],其中模型学会在给定用户输入的情况下直接合成输出图像。然而,这些方法需要预先定义的任务和严格的监督(例如,输入-输出对,类标签)来训练和限制用户在推理时的可控性。另一种方法是通过直接优化单个图像的潜在代码来利用预训练的GAN模型[1,2,63,37,41]。但是,即使在高端gpu上,每幅目标图像都需要数分钟的计算时间,并且不能保证 optimized code 会被放置在GAN的原始 latent space。

一种更实用的方法是训练一个额外的编码器,该编码器学会将图像投射到其相应的潜码中[34,62,44,36,45]。虽然这种方法能够以单一的前馈方式实现实时投影,但其缺点是投影图像保真度低(即丢失目标图像的细节)。我们把这种限制归因于潜在空间中空间维度的缺失。没有空间维度,编码器将图像的局部语义以纠缠的方式压缩为向量,使图像难以重构(例如,基于向量的或低分辨率的瓶颈层不能产生高频细节[33,8])。

1-1

1-2

为了解决这些问题,我们提出了StyleMapGAN,它利用了stylemap,一种新的潜在空间表示。我们的核心理念很简单。我们使用一个具有明确空间维度的张量,而不是学习一个基于向量的 latent representation 。我们所提出的表示方式得益于其空间维度,使gan能够轻松地将图像的局部语义编码到潜在空间中。该特性允许编码器有效地将图像投射到潜在空间,从而提供高保真度和实时投影。我们的方法还提供了一种新的功能,通过操纵样式图的匹配位置来编辑图像的特定区域。

图1显示了我们的本地编辑和本地语义操作结果。注意,所有的编辑都是实时完成的。如图2所示,您可以测试我们的web演示来进行交互式编辑。

在多个数据集上,与传统的基于向量的 latent representation 相比,我们的样式图确实大大提高了投影质量(4.3)。此外,我们还展示了我们的方法在图像投影、插值和局部编辑方面的优势。4.5)。最后,我们证明了我们的方法可以移植区域,即使区域之间没有对齐(4.6)。


2. Related work


Optimization-based editing methods 迭代更新预训练 GAN 的潜在向量以将真实图像投影到潜在空间 [63, 7, 1, 62, 20, 4]。 例如,Image2StyleGAN [1] 通过优化 StyleGAN [25] 每一层的中间表示来重建图像。 In-DomainGAN [62] 不仅侧重于在像素空间中重建图像,还侧重于将倒置代码落地到原始潜在空间的语义域中。 Neural Collage [53] 和 pix2latent [20] 提出了一种混合优化策略,用于将图像投影到类条件 GAN(例如 BigGAN [6])的潜在空间中。 另一方面,我们利用了一个编码器,这使得编辑速度比优化方法快两到三个数量级。

Learning-based editing methods 训练额外的编码器以直接推断给定目标图像的潜在代码 [34, 13, 12, 14, 45]。例如,ALI [14] 和 BiGAN [12] 引入了一个完全对抗性的框架来共同学习生成器和逆映射。为了将变分自动编码器 [32] 与 GAN 结合起来进行潜在投影,已经进行了多项工作 [34, 51, 55]。 ALAE [45] 构建了一个编码器来预测 StyleGAN 的中间潜在空间。然而,由于缺乏潜在空间的空间维度,所有上述方法提供的重建质量有限。 Swap Autoencoder [43] 学习将图像编码为两个组件,结构代码和纹理代码,并在给定任何交换组合的情况下生成逼真的图像。尽管由于这种表示它可以快速准确地重建图像,但纹理代码仍然是一个向量,这使得结构化纹理传输具有挑战性。我们的编辑方法不仅成功地反映了颜色和纹理,而且还反映了参考图像的形状。

Local editing methods 处理编辑特定部分 [11, 3, 65, 60, 49](例如鼻子、背景),而不是大多数基于 GAN 的图像编辑方法修改全局外观 [47, 57, 43]。 例如,Editing in Style [11] 试图识别每层风格向量对特定部分的每个通道的贡献。 Structured Noise [3] 用输入张量替换了来自 StyleGAN 的学习常数,输入张量是局部和全局代码的组合。 然而,这些方法 [11, 3, 5] 不针对真实图像,其性能在真实图像中显着降低。 SEAN [65] 通过将图像编码为每个区域的样式代码并对其进行操作来促进编辑真实图像,但它需要成对的图像和分割掩码进行训练。 此外,样式代码仍然是一个向量,因此它与 Swap Autoencoder [43] 存在相同的问题。


3. StyleMapGAN


我们的目标是将图像精确投影到一个潜在空间与编码器在实时和局部操作的图像上的潜在空间。我们提出了StyleMapGAN,它采用了stylemap,一个具有空间维度的中间潜在空间,以及一个基于stylemap(3.1)的空间变型调制。注意,样式不仅表示纹理(精细样式),还表示形状(粗糙样式)。现在,编码器可以将图像嵌入到stylemap中,这比基于优化的方法更准确地重建图像,而stylemap中的部分更改会导致图像的局部编辑(3.3)。

3.1. Stylemap-based generator

Figure 3描述了提议的基于样式图的生成器。传统的映射网络生成样式向量来控制特征图,而我们创建了具有空间维度的样式图,这不仅使真实图像的投影在推理方面更有效,而且还可以进行局部编辑。映射网络的最后有一个重塑层来产生样式映射,该样式映射形成对空间变化的仿射参数的输入。由于合成网络中的特征图随着距离输出图像越近而增大,我们引入了一个由卷积和上采样组成的样式图调整器来匹配样式图的分辨率和特征图的分辨率。样式映射调整器通过学习到的卷积来调整和转换样式映射,以传达更详细和结构化的样式。

Figure 3
2-4

3.2. Training procedure and losses

2-5

2-6

3.3. Local editing

如图4底部所示,本地编辑的目标是将参考图像的某些部分相对于掩码移植到原始图像,这表示要修改的区域。
注意,掩码可以是任何形状,允许使用语义分割方法进行交互式编辑或基于标签的编辑。
2-7


4. Experiments


实验部分,重要的是图文效果对比,直接查阅论文即可

4.1. Experimental setup

4-1
4-2

4.2. Evaluation metrics
  1. Frechet inception distance (FID).
  2. FIDlerp.
  3. MSE & LPIPS.
  4. Average precision (AP).
  5. MSEsrc & MSEref.
4.3. Effects of stylemap resolution
4.4. Real image projection
4.5. Local editing
4.6. Unaligned transplantation

有趣的实验结果

4-3

换起来

4-5


5. Discussion and Conclusion


GAN的可逆性对于在实际应用中使用非条件的GAN模型编辑真实图像是至关重要的,但这一问题还没有得到适当的解决。为了实现这一目标,我们提出了StyleMapGAN,它向潜在空间引入了明确的空间维度,称为样式映射。

我们通过广泛的评估表明,我们基于样式图的方法与先前的方法相比具有许多优势。 它可以将真实图像实时准确地投影到潜在空间中,并通过插值和本地编辑合成高质量的输出图像。 我们相信,通过将我们的 latent representation 应用于其他方法(例如条件 GAN(例如 BigGAN [6])或变分自动编码器 [32])来提高保真度将是令人兴奋的未来工作。


9-9


### 利用时空关系通过图卷积网络进行3D姿态估计 #### 图卷积网络概述 图卷积网络(Graph Convolutional Networks, GCNs)是一种专门处理结构化数据的强大工具。这类神经网络能够有效地捕捉节点之间的复杂依赖关系,适用于诸如社交网络分析、推荐系统以及生物信息学等领域。当应用于人体姿态估计时,GCN可以建模关节间的拓扑连接,并融合多帧视频中的时间动态特性。 #### 空间-时间关系建模 为了实现基于时空关联性的3D姿态估计,研究者们提出了多种方法来构建合适的图形表示并定义相应的传播机制: 1. **空间维度上的邻接矩阵构造** - 将人体骨架视为无向加权图G=(V,E),其中顶点集V代表各个关节点而边E则编码相邻关节间的物理连通性。 - 权重通常由欧氏距离或其他相似度量决定,以此反映两节点之间的重要性程度[^1]。 2. **时间序列下的特征聚合** - 对于连续动作片段而言,除了考虑单张图像内各部位的空间布局外还需关注跨时刻的变化趋势。 - 可以引入循环单元或自注意力模块辅助捕捉长期依赖模式,从而增强对于快速运动场景下瞬态行为的理解能力[^2]。 #### SelecSLS Net 架构特点 针对多人环境下的高效实时处理需求,有学者开发出了名为SelecSLS Net的新颖框架。该模型具备如下优势: - 结合传统ResNet风格的局部跳跃链接与全局跳转路径于一体; - 有效缓解梯度消失现象的同时促进了深层特征的有效传递; - 显著降低了计算成本却并未牺牲精度表现,特别适合移动端部署应用场合[^3]. ```python import torch.nn as nn class SelecSLSBlock(nn.Module): def __init__(self, in_channels, out_channels): super(SelecSLSBlock, self).__init__() # 定义具体层操作... def forward(self, x): residual = self.shortcut(x) out = self.conv_block(x) return out + residual ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨理学AI

不必打赏,关注博主公众号即可

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值