FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Yang, Haosen; Bulat, Adrian; Hadji, Isma; Pham, Hai X.; Zhu, Xiatian; Tzimiropoulos, Georgios; Martinez, Brais

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.18552 (cs)

[Submitted on 27 Nov 2024]

Title:FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Authors:Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

View PDF HTML (experimental)

Abstract:Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2411.18552 [cs.CV]
	(or arXiv:2411.18552v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.18552

Submission history

From: Haosen Yang [view email]
[v1] Wed, 27 Nov 2024 17:51:44 UTC (28,154 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators