Multimodel Image synthesis and editing:The generative AI Era

Kun Li

已于 2023-09-12 11:25:31 修改

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：图像视频生成大模型文章标签：人工智能深度学习

于 2023-09-06 20:01:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012193416/article/details/132722155

图像视频生成大模型专栏收录该内容

306 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了多模态图像合成和编辑的最新进展，特别是基于生成对抗网络(GAN)和扩散模型的方法。通过视觉、文本、音频等多种模态的引导，实现了对图像的精确控制。条件GAN、GAN逆向、扩散模型、自回归方法和神经辐射场（NeRF）等技术被用来结合不同模态信息进行图像生成。各种模型结构、条件融合策略和损失函数被详细讨论，强调了它们在处理多模态信息和生成高质量图像方面的优势和局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.introduction

基于GAN和扩散模型，通过融入多模态引导来调节生成过程，从不同的多模态信号中合成图像；是为多模态图像合成和编辑使用预训练模型，通过在GAN潜在空间中进行反演，应用引导函数，或调整扩散模型的潜在空间和嵌入。

2.modality foundations

每一种信息源或形式都可以成为模态。

2.1 Visual guidance

视觉引导将特定图像属性编码在像素空间中，提供控制。视觉引导编码在2d像素空间中表示为特定类型的图像，因此可以通过多种图像编码策略直接进行编码，由于编码后的特征在空间上与图像特征对齐，可以使用拼接，spade，cross-attention等方式，webui中的图生图，通过autoencoderKL产生init_latent，文本通常会通过cross-attention融合模型，但输入的图像不会。

2.2 Text guidance

clip通过大量的图像-文本对训练产生了信息丰富的文本嵌入，广泛用于文本编码。

2.3 Audio guidance

与文本和视觉指导不同，音频指导提供了可以用于生成动态或连续视觉内容的时间信息。输入音频片段可以

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。