1.Introduction
由于扩散模型的高质量图像生成和稳定性,大量的方法集中在利用它们的生成先验进行可控生成,图像定制旨在确保生成的输出在特定属性上与参考图像保持一致。本文中设计了一种基于预训练的扩散模型的统一图像定制方法,只需要轻微的训练成本,就可以支持各种一致性条件,比如id,主题,试穿和风格,并实现了多种控制类型之间的交互。具体来说,我们遵循OminiControl中引入的统一序列条件格式,并在训练期间对DiT的内部表示引入了路由约束,这确保了内容保真度并促进了不同控制条件的解耦。我们还设计了一个占位符策略,以便在生成的结果中控制条件的放置。此外,我们构建了覆盖多个任务的大规模训练数据,并设计了一种渐进式训练策略。
2.related work
2.1 Cross-attention Routing in Diffusion Models
Prompt-to-Prompt表明,文本与视觉的cross attention注意力图本质上建立了语言token与视觉生成之间的空间-语义对应关系,值得注意是,cross attention的路由模式解释一个关键属性,在计算特定条件特征与视觉特征之间的注意力分数时,响应峰值始终与合成图像中相应主题的空间区域对齐,UniPortrait限制了条件特征在多面孔场景中对身份特定生成的影响区域,Anystory则进一步将这种方法扩展到注意驱动的生成。
3.Method
3.1