DreamO:A unified framework for image customization

1.Introduction

由于扩散模型的高质量图像生成和稳定性,大量的方法集中在利用它们的生成先验进行可控生成,图像定制旨在确保生成的输出在特定属性上与参考图像保持一致。本文中设计了一种基于预训练的扩散模型的统一图像定制方法,只需要轻微的训练成本,就可以支持各种一致性条件,比如id,主题,试穿和风格,并实现了多种控制类型之间的交互。具体来说,我们遵循OminiControl中引入的统一序列条件格式,并在训练期间对DiT的内部表示引入了路由约束,这确保了内容保真度并促进了不同控制条件的解耦。我们还设计了一个占位符策略,以便在生成的结果中控制条件的放置。此外,我们构建了覆盖多个任务的大规模训练数据,并设计了一种渐进式训练策略。

2.related work

2.1 Cross-attention Routing in Diffusion Models

Prompt-to-Prompt表明,文本与视觉的cross attention注意力图本质上建立了语言token与视觉生成之间的空间-语义对应关系,值得注意是,cross attention的路由模式解释一个关键属性,在计算特定条件特征与视觉特征之间的注意力分数时,响应峰值始终与合成图像中相应主题的空间区域对齐,UniPortrait限制了条件特征在多面孔场景中对身份特定生成的影响区域,Anystory则进一步将这种方法扩展到注意驱动的生成。

3.Method

3.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值