DreamO:A unified framework for image customization

最新推荐文章于 2025-08-14 21:19:52 发布

Kun Li

最新推荐文章于 2025-08-14 21:19:52 发布

阅读量151

点赞数 3

CC 4.0 BY-SA版权

分类专栏：图像视频生成大模型文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012193416/article/details/149751547

图像视频生成大模型专栏收录该内容

307 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

1.Introduction

由于扩散模型的高质量图像生成和稳定性，大量的方法集中在利用它们的生成先验进行可控生成，图像定制旨在确保生成的输出在特定属性上与参考图像保持一致。本文中设计了一种基于预训练的扩散模型的统一图像定制方法，只需要轻微的训练成本，就可以支持各种一致性条件，比如id，主题，试穿和风格，并实现了多种控制类型之间的交互。具体来说，我们遵循OminiControl中引入的统一序列条件格式，并在训练期间对DiT的内部表示引入了路由约束，这确保了内容保真度并促进了不同控制条件的解耦。我们还设计了一个占位符策略，以便在生成的结果中控制条件的放置。此外，我们构建了覆盖多个任务的大规模训练数据，并设计了一种渐进式训练策略。

2.related work

2.1 Cross-attention Routing in Diffusion Models

Prompt-to-Prompt表明，文本与视觉的cross attention注意力图本质上建立了语言token与视觉生成之间的空间-语义对应关系，值得注意是，cross attention的路由模式解释一个关键属性，在计算特定条件特征与视觉特征之间的注意力分数时，响应峰值始终与合成图像中相应主题的空间区域对齐，UniPortrait限制了条件特征在多面孔场景中对身份特定生成的影响区域，Anystory则进一步将这种方法扩展到注意驱动的生成。

3.Method

3.1

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。