- 博客(82)
- 收藏
- 关注
原创 Exploring Diffusion Transformer Designs via Grafting
设计模型架构需要做出一些决策,例如选择算子(如注意力机制、卷积)和配置(如深度、宽度)。然而,评估这些决策对模型质量的影响需要进行成本高昂的预训练,这限制了对架构的研究。受新软件基于现有代码构建的启发,我们提出疑问:能否使用预训练模型来研究新的架构设计?为此,我们提出了“嫁接”方法,这是一种在小计算预算下编辑预训练扩散变压器(DiTs)以实现新架构的简单方法。基于我们对激活行为和注意力局部性的分析,我们基于DiT - XL/2设计构建了一个测试平台,以研究嫁接对模型质量的影响。
2025-07-24 14:38:09
864
原创 Large Language Diffusion Models
自回归模型(ARMs)被广泛认为是大语言模型(LLMs)的基石。我们通过引入LLaDA挑战了这一观点,LLaDA是一个在预训练和监督微调(SFT)范式下从头开始训练的扩散模型。LLaDA通过前向数据掩码过程和反向过程对分布进行建模,由一个普通的Transformer参数化以预测被掩码的标记。通过优化似然界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA表现出强大的可扩展性,优于我们自行构建的自回归模型基线。
2025-07-17 15:39:38
310
原创 SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
图像扩散模型已被应用于各种任务,如图文生成和可控图像合成。近期研究提出了对原始模型进行微调的方法,在基础生成式扩散模型的特定适配方面取得了有前景的成果。我们没有对扩散模型的主要主干进行修改,而是深入研究了 U型网络(U-Net)中跳跃连接(skip connection)的作用,并揭示了跨编码器和解码器聚合长距离信息的分层特征对图像生成的内容和质量有着重大影响。基于这一观察,我们提出了一个高效的生成式微调框架,名为 SCEdit,它使用一个名为 SC-Tuner 的轻量级微调模块来整合和编辑跳跃连接。
2025-07-15 00:00:38
346
原创 【TIE】Mojo: Training-Free Image Editing via Skip Connection Modulation
文本到图像的扩散模型最近因其能够生成多样且逼真的视觉内容而备受关注。然而,将这些模型应用于真实图像编辑仍然具有挑战性。现有的文本引导图像编辑方法要么难以在保持图像整体结构的同时实现有效编辑,要么需要大量的微调,这使得它们在许多应用中不切实际。为应对这些挑战,我们推出了 Mojo,这是一种无需训练的新型方法,可实现有效的、保留结构的图像编辑。跳跃连接调制(Skip Connection Modulation,SCM)和跨图像自注意力机制(Cross Image Self-Attention,CISA)。
2025-07-08 17:34:39
658
原创 【T2I】R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation
近期的文本到图像(T2I)扩散模型在以文本提示作为输入生成高质量图像方面取得了显著进展。然而,这些模型无法传达布局指令所指定的合适空间构图。在这项工作中,我们探索了使用扩散模型进行零样本接地T2I生成,即无需训练辅助模块或微调扩散模型就能生成与输入布局信息相对应的图像。我们提出了一种区域与边界(R&B)感知的交叉注意力引导方法,该方法在生成过程中逐步调整扩散模型的注意力图,并协助模型合成高保真、与文本输入高度兼容且能准确解读布局指令的图像。
2025-06-30 14:42:05
739
原创 【T2V】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
为了复制文本到图像(T2I)生成的成功,近期的研究工作利用大规模视频数据集来训练文本到视频(T2V)生成器。尽管这些方法取得了不错的成果,但这种范式的计算成本很高。在这项工作中,我们提出了一种新的T2V生成设置——单样本视频微调,即仅提供一个文本 -视频对。我们的模型基于在海量图像数据上预训练的最先进的T2I扩散模型构建。我们有两个关键发现:**T2I模型能够生成表现动态词汇的静态图像;将T2I模型扩展为同时生成多幅图像时,其内容一致性表现出奇地好。
2025-06-28 00:05:08
732
原创 Generating Non-Stationary Textures using Self-Rectification
本文探讨了基于示例的非平稳纹理合成这一挑战。我们提出了一种新颖的两步法,用户首先使用标准图像编辑工具修改参考纹理,为合成提供一个初始的粗略目标。随后,我们提出的名为“自校正”的方法会自动将这个目标优化为连贯、无缝的纹理,同时忠实地保留参考样本的独特视觉特征。我们的方法利用预训练的扩散网络,并使用自注意力机制,逐步使合成纹理与参考纹理对齐,确保保留所提供目标中的结构。通过实验验证,我们的方法在处理非平稳纹理方面表现出色,与现有的先进技术相比,在纹理合成方面取得了显著进展。
2025-06-25 20:39:58
658
原创 【T2I】Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing
条件扩散模型在高保真的文本引导视觉生成和编辑方面表现出了卓越的性能。然而,目前主流的文本引导视觉扩散模型主要侧重于仅在逆向过程中融入文本 -视觉关系,常常忽略了它们在正向过程中的相关性。正向和逆向过程之间的这种不一致性可能会限制在视觉合成结果中对文本语义的精确传达。为了解决这个问题,我们提出了一种新颖且通用的上下文扩散模型(CONTEXTDIFF),该模型将包含文本条件与视觉样本之间的交互和对齐的跨模态上下文融入到正向和逆向过程中。我们将这种上下文传播到这两个过程的所有时间步,以调整它们的轨迹,从而促进跨模
2025-06-25 18:12:09
702
原创 【T2I】Improving Diffusion-Based Image Synthesis with Context Prediction
扩散模型是一类新型的生成模型,极大地推动了图像生成技术,使其具备了前所未有的质量和多样性。现有的扩散模型主要尝试沿着空间轴,通过逐像素或逐特征的约束,从受损图像中重建输入图像。然而,这种基于点的重建方式可能无法让每个预测的像素/特征充分保留其邻域上下文信息,从而影响基于扩散的图像合成效果。作为自动监督信号的强大来源,上下文信息在学习表征方面已得到深入研究。受此启发,我们首次提出了 CONPREDIFF方法,**通过上下文预测来改进基于扩散的图像合成。**在训练阶段的扩散去噪块末尾,我们使用上下文解码器明确地
2025-06-25 15:48:29
820
原创 【T2I】MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image
扩散模型在文本到图像生成任务中表现出了卓越的性能。然而,现有方法在处理涉及多个对象、特征和关系的复杂提示时,往往会遇到性能瓶颈。因此,我们提出了一种基于多智能体协作的组合扩散(MCCD)方法,用于复杂场景的文本到图像生成。具体来说,我们设计了一个基于多智能体协作的场景解析模块,该模块利用大语言模型(MLLMs)有效提取各种场景元素,生成一个由多个具有不同任务的智能体组成的智能体系统。此外,分层组合扩散方法利用高斯掩码和滤波来细化边界框区域,并通过区域增强来强化对象,从而实现复杂场景的准确、高保真生成。
2025-06-20 17:38:57
278
原创 【T2I】PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS
最先进的文本到图像(tt2i)模型需要大量的训练成本(例如,数百万GPU小时),严重阻碍了AIGC社区的基础创新,同时增加了二氧化碳排放。本文介绍了PIXART-α,一种基于transformer的T2I扩散模型,其图像生成质量与最先进的图像生成器(例如Imagen, SDXL,甚至Midjourney)相媲美,达到了接近商业应用标准。此外,支持1024 × 1024分辨率的高分辨率图像合成,训练成本低,如图1和图2所示。
2025-06-16 17:20:16
679
原创 MMaDA: Multimodal Large Diffusion Language Models
我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构,具有共享的概率公式和模态不可知设计,消除了对模态特定组件的需求。这种体系结构确保了跨不同数据类型的无缝集成和处理。(ii)我们实施了一个混合的长思维链(CoT)微调策略,该策略策划了跨模式的统一的CoT格式。
2025-06-10 16:37:23
1100
原创 【T2I】Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning
扩散模型是通过学习一系列模型来训练的,这些模型可以逆转噪声衰减的每一步。通常,模型参数在多个时间步之间完全共享,以提高训练效率。然而,由于每个时间步长的去噪任务不同,在不同时间步长的梯度计算可能会冲突,潜在地降低图像生成的整体性能。为了解决这个问题,这项工作提出了一个解耦-然后合并(DeMe)框架,它从一个预训练的模型开始,并根据特定的时间步骤微调单独的模型。我们在微调阶段引入了几种改进的技术,以促进有效的知识共享,同时最大限度地减少跨时间步长的训练干扰。
2025-06-03 16:14:05
693
原创 Diffusion Models: A Comprehensive Survey of Methods and Applications
扩散模型已经成为一个强大的新深度生成模型家族,在许多应用中具有破纪录的性能,包括图像合成,视频生成和分子设计。在本调查中,我们概述了扩散模型的快速发展,将研究分为三个关键领域:有效采样,改进的似然估计和处理具有特殊结构的数据。我们还讨论了将扩散模型与其他生成模型相结合以增强结果的可能性。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。本调查旨在为扩散模型的状态提供一个情境化的、深入的观察,确定重点领域,并指出进一步探索的潜在领域。。
2025-06-03 15:46:25
916
原创 【T2I】Interact Diffusion: Interaction Control in Text-to-Image Diffusion Models
大规模文本到图像(t2i)扩散模型在基于文本描述生成连贯图像方面展示了令人难以置信的能力,从而在内容生成方面实现了广泛的应用。虽然最近的进步已经引入了对物体定位、姿态和图像轮廓等因素的控制,但我们在控制生成内容中物体之间交互的能力方面仍然存在一个关键的差距。在生成的图像中控制好交互可以产生有意义的应用,例如创建具有交互角色的逼真场景。在这项工作中,我们研究了用人-物体交互(HOI)信息来调节T2I扩散模型的问题,这些信息由一个三重标签(人、动作、物体)和相应的边界框组成。
2025-06-03 14:51:14
1031
原创 【T2I】Not All Parameters Matter: Masking Diffusion Models for EnhancingGeneration Ability
扩散模型在早期主要构建图像的基本结构,在后期生成精细的细节,包括局部特征和纹理。因此,相同的网络层被迫同时学习结构和纹理信息,这与传统的深度学习架构(例如ResNet或gan)有很大的不同,后者在不同的层捕获或生成图像语义信息。这种差异激发了我们对时间扩散模型的探索。我们首先研究了U-Net参数对去噪过程的关键贡献,并确定适当地将某些参数(包括大参数)归零有助于去噪,从而大大提高动态生成质量。利用这一发现,我们提出了一种简单而有效的方法-称为“MaskUNet”-可以通过忽略参数数来提高生成质量。
2025-05-30 22:58:53
593
原创 【T2I】Controllable Generation with Text-to-ImageDiffusion Models: A Survey
在快速发展的视觉生成领域,扩散模型带来了革命性的变化,其文本引导生成功能令人印象深刻,标志着功能的重大转变。然而,仅仅依靠文本来调节这些模型并不能完全满足不同应用和场景的各种复杂要求。认识到这一不足,各种研究都旨在控制预训练的文本到图像(T2I)模型,以支持新的条件。在本调查报告中,我们对有关 T2I 扩散模型可控生成的文献进行了全面回顾,涵盖了该领域的理论基础和实践进展。我们的综述首先简要介绍了去噪扩散概率模型(DDPM)和广泛使用的 T2I 扩散模型的基础知识。
2025-05-22 22:34:37
871
原创 【T2I】Text-to-image Diffusion Models in Generative AI: ASurvey
本文综述了从文本生成图像的扩散模型的研究进展,即文本到图像的扩散模型。作为一项独立的工作,本调查首先简要介绍了扩散模型如何用于图像合成,然后介绍了文本条件图像合成的背景。在此基础上,我们有组织地回顾了文本到图像生成的前沿方法及其改进。我们进一步总结了图像生成以外的应用,例如用于各种模式(如视频)的文本引导生成和文本引导图像编辑。除了迄今取得的进展,我们还讨论了现有的挑战和有希望的未来方向。
2025-05-22 13:50:13
1051
原创 【T2I】LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis
最近的文本到图像扩散模型在生成高质量图像方面达到了前所未有的水平。然而,它们对文本提示的完全依赖往往在图像组成的精确控制方面存在不足。在本文中,我们提出了LoCo,这是一种无需训练的布局到图像合成方法,擅长生成与文本提示和布局指令对齐的高质量图像。具体来说,我们引入了本地化注意约束(LAC),利用自注意力机制图中像素之间的语义亲和力来创建所需物体的精确表示,并有效地确保物体在指定区域的准确放置。
2025-05-19 16:27:49
743
原创 【T2I】Diffusion Beats Autoregressive: An Evaluation ofCompositional Generation in Text-to-Image Model
FLUX系列模型[21]是黑森林实验室[20]最新推出的T2I模型。据我们所知,没有关于这个型号的正式技术报告。然而,根据现有的实现细节,FLUX系列模型。
2025-05-19 14:27:15
562
原创 Boundary Attention Constrained Zero-Shot Layout-To-Image Generation
最近的文本到图像扩散模型擅长从文本生成高分辨率图像,但难以精确控制空间构成和物体计数。为了应对这些挑战,一些研究开发了布局到图像(L2I)方法,将布局指令合并到文本到图像模型中。然而,现有的L2I方法通常需要微调预训练参数或训练扩散模型的附加控制模块。在这项工作中,我们提出了一种,BACON(边界注意约束生成),它消除了对额外模块或微调的需要。具体来说,我。
2025-05-13 15:23:06
917
原创 Autoregressive Distillation of Diffusion Transformers
具有transformer架构的扩散模型在生成高保真图像和高分辨率可扩展性方面表现出了很好的能力。然而,合成所需的迭代采样过程非常耗费资源。一系列的工作集中在将概率流ode的解提炼成几个步骤的学生模型。然而,现有的方法受到限制,因为它们依赖于最近去噪的样本作为输入,使它们容易受到暴露偏差的影响。为了解决这一限制,我们提出了,这是一种利用ODE的历史轨迹来预测未来步骤的新方法。ARD通过添加标记智能时间嵌入来标记轨迹历史中的每个输入来修改教师转换器架构,并采用块智能因果注意掩码进行训练。
2025-05-12 21:29:45
1139
原创 Freestyle Layout-to-Image Synthesis
典型的布局到图像合成(LIS)模型为一组封闭的语义类生成图像,例如,COCO-Stuff中的182个公共对象。在这项工作中,我们探索了模型的自由式能力,即,它可以在多大程度上为给定的布局生成看不见的语义(例如,类,属性和样式),并将任务称为自由式LIS (FLIS)。由于大规模预训练语言图像模型的发展,许多在有限基类上训练的判别模型(例如,图像分类和物体检测)被赋予了未知类预测的能力。受此启发,我们选择利用大规模预训练的文本到图像扩散模型来实现看不见的语义的生成。
2025-05-09 16:35:47
854
原创 Collaborative Vision-Text RepresentationOptimizing for Open-Vocabulary Segmentation
预训练的视觉语言模型,如CLIP,已经越来越多地用于解决具有挑战性的开放词汇分割(OVS)任务,受益于它们良好对齐的视觉文本嵌入空间。典型的解决方案包括在训练期间冻结CLIP以单方面保持其零样本学习能力,或微调CLIP视觉编码器以实现对局部区域的感知灵敏度。然而,它们很少结合视觉-文本协同优化。在此基础上,我们提出了内容依赖转移,通过与输入图像的交互自适应增强每个文本嵌入,为优化文本表示提供了一种参数高效的方法。
2025-05-09 15:47:24
704
原创 【T2I】PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
近年来,大规模预训练文本图像模型的发展使语义图像合成取得了显著进展。然而,合成具有一致语义和布局的高质量图像仍然是一个挑战。在本文中,我们提出了自适应布局语义融合模块(PLACE),它利用预先训练的模型来缓解上述问题。具体来说,我们首先使用布局控制映射来忠实地表示特征空间中的布局。随后,我们以时间步长自适应的方式将布局和语义特征结合起来,合成具有真实细节的图像。在微调过程中,我们提出了语义对齐(SA)损失来进一步增强布局对齐。
2025-05-06 17:54:39
1046
原创 【T2I】DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation
个性化图像生成在帮助人类日常工作和生活中有着很大的希望,因为它具有跨各种环境创造性地生成个性化内容的令人印象深刻的能力。然而,当前的评估要么是自动化的,但与人类不一致,要么需要人工评估,这既耗时又昂贵。在这项工作中,我们提出了DREAMBENCH++,这是一个先进的多模态GPT模型自动化的人性化基准。具体地说,我们系统地设计了提示,使GPT既与人类一致又与自我一致,并具有任务强化功能。此外,我们构建了一个包含不同图像和提示的综合数据集。
2025-05-06 16:30:07
708
原创 【交易】量价
有时候支点不会出现。然而,在横盘的最后阶段,我们看到每天的卖压都被吸收掉了,伴随着较低实体的阴线和很高的成交量,这又是一个异常。接着刚才分析的位置,我们希望市场价格在离开低位支点之后进一步推高,之后我们的下一个目标就是一个高位支点,只要这个高位支点比上一个要高,我们就进入了上升趋势的通道中。那些在高位买进的买家被认为是弱势的,而那些在低位买进的买家就是强势的。最终,在某个位置,我们发现一个高位支点和前一个差不多高,甚至比前一个要低,这个位置市场可能会进入到第二个横盘整理的阶段了,接下来会形成一个低位支点。
2025-05-05 18:17:42
895
原创 【T2I】Object-Conditioned Energy-Based Attention MapAlignment in Text-to-Image Diffusion Models
文本到图像扩散模型在生成高质量文本引导图像方面取得了巨大成功。然而,这些模型可能仍然无法在语义上将生成的图像与提供的文本提示对齐,从而导致错误的属性绑定和/或灾难性的对象忽略等问题。鉴于文本提示的普遍面向对象结构,我们引入了一种新的基于对象条件能量的注意图对齐(EBAMA)方法来解决上述问题。我们表明,在负采样技术的帮助下,通过近似最大化z参数化能量模型的对数似然,自然出现了以对象为中心的属性绑定损失。我们进一步提出了一个以对象为中心的强度正则化器,以防止对象的注意力过度转移到其属性上。
2025-04-24 16:43:42
282
原创 【T2I】TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
尽管在定制文本到图像和视频生成模型方面取得了重大进展,但生成有效集成多种个性化概念的图像和视频仍然具有挑战性。为了解决这个问题,我们提出了TweedieMix,一种在推理阶段组合自定义扩散模型的新方法。通过分析反向扩散采样的特性,将采样过程分为两个阶段。在初始步骤中,我们应用了多对象感知采样技术来确保包含所需的目标对象。在后面的步骤中,我们使用Tweedie公式在去噪图像空间中混合自定义概念的外观。我们的研究结果表明,与现有方法相比,TweedieMix可以以更高的保真度生成多个个性化概念。
2025-04-23 22:18:01
692
原创 Buffer of Thoughts: Thought-Augmented Reasoningwith Large Language Models
我们介绍了思想缓冲(BoT),一种新颖而通用的思想增强推理方法,用于提高大型语言模型(大型语言模型)的准确性、效率和鲁棒性。具体来说,我们提出了元缓冲区来存储一系列信息丰富的高级思想,即思想模板,这些思想是从不同任务的解决问题过程中提炼出来的。然后,针对每个问题,检索相应的思想模板,并自适应地实例化特定的推理结构,以进行有效的推理。为了保证可扩展性和稳定性,我们进一步提出了缓冲区管理器来动态更新元缓冲区,从而在处理更多任务时增强元缓冲区的容量。
2025-04-22 16:56:46
1141
原创 【T2I】TOKENCOMPOSE: Text-to-Image Diffusion with Token-level Supervision
我们提出了TokenCompose,这是一种用于文本到图像生成的潜在扩散模型,可在用户指定的文本提示和模型生成的图像之间实现增强的一致性。尽管取得了巨大的成功,但潜扩散模型中的标准去噪过程仅以文本提示为条件,对文本提示与图像内容的一致性没有明确的约束,导致组合多个对象类别的结果不理想。我们提出的TokenCompose旨在通过在微调阶段引入图像内容和对象分割映射之间的token-wise一致性术语来改善多类别实例组合。
2025-04-22 15:07:34
985
原创 【T2I】Improving Compositional Attribute Binding in Text-to-Image GenerativeModels via Enhanced Text
基于文本到图像扩散的生成模型具有惊人的生成逼真图像的能力,并在具有挑战性的图像生成基准上实现最先进的低FID分数。然而,这些文本-图像生成模型的主要失效模式之一是将属性、对象及其相关关系准确地组合成图像。在我们的论文中,我们研究了组合属性绑定失败,其中模型无法正确地将描述性属性(如颜色,形状或纹理)与生成图像中的相应对象关联起来,并强调CLIP文本编码器的不完善的文本条件反射是这些模型无法生成高保真构图场景的主要原因之一。
2025-04-21 17:00:48
995
原创 【T2I】DreamFuse: Adaptive Image Fusion with Diffusion Transformer
图像融合旨在将前景对象与背景场景无缝融合,产生逼真和谐的融合图像。与直接将对象插入背景的现有方法不同,自适应和交互式融合仍然是一项具有挑战性但又吸引人的任务。它要求前景与背景环境进行调整或交互,从而实现更连贯的集成。为了解决这个问题,我们提出了一个迭代的人在循环数据生成管道,它利用有限的初始数据和不同的文本提示来生成跨各种场景和交互的融合数据集,包括放置、持有、穿着和风格转移。
2025-04-18 16:59:50
1075
2
原创 【T2I】CDM-QTA: Quantized Training Acceleration forEfficient LoRA Fine-Tuning of Diffusion Model
为定制应用程序微调大型扩散模型需要大量的功率和时间,这对在移动设备上有效实施构成了重大挑战。在本文中,我们开发了一种新的训练加速器,专门用于扩散模型的低秩自适应(LoRA),旨在简化过程并降低计算复杂度。通过利用完全量化的LoRA微调训练方案,我们在保持高模型保真度的同时大幅降低了内存使用和功耗。所提出的加速器具有灵活的数据流,在LoRA过程中可以对不规则和可变张量形状进行高利用率。实验结果表明,与基线相比,训练速度提高了1.81倍,能源效率提高了5.5倍,对图像生成质量的影响最小。
2025-04-18 15:46:24
987
原创 【T2I】Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control
嵌入式AI代理需要通过视觉和语言输入对物理世界有细致的理解。这种能力很难仅从特定于任务的数据中学习。这导致了预训练视觉语言模型的出现,作为将从互联网规模数据学习到的表征转移到下游任务和新领域的工具。然而,常用的对比训练表征(如CLIP)已被证明无法使嵌入代理获得足够细粒度的场景理解——这是控制的关键能力。为了解决这一缺点,我们考虑了来自预训练的文本到图像扩散模型的表示,该模型被明确优化为从文本提示生成图像,因此,包含反映高度细粒度视觉空间信息的文本条件表示。使用预训练的文本到图像扩散模型,我们构建了。
2025-04-18 15:17:31
934
原创 【T2I】MIGC++: Advanced Multi-Instance GenerationController for Image Synthesis
我们介绍了多实例生成(Multi-Instance Generation, MIG)任务,其重点是在单个图像中生成多个实例,每个实例都精确地放置在预定义的位置,具有类别、颜色和形状等属性,严格遵循用户规范。避免实例之间的属性泄漏,支持不同的实例描述,以及在迭代生成中保持一致性。为了解决属性泄漏问题,我们提出了多实例生成控制器(MIGC)。MIGC通过分而治之的策略生成多个实例,将多实例着色分解为具有单一属性的单实例任务,稍后进行集成。为了提供更多类型的实例描述,我们开发了migc++。
2025-04-16 15:16:22
722
原创 【T2I】Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement
区域提示,或组成生成,能够实现细粒度的空间控制,在实际应用中越来越受到关注。然而,以前的方法要么引入了额外的可训练模块,因此只适用于特定的模型要么使用注意掩模在跨注意层内的分数图上进行操作,导致当区域数量增加时控制强度有限。为了解决这些限制,我们提出了基于区域描述的区域感知文本到图像生成方法RAG。RAG将多区域生成解耦为两个子任务,一个是确保区域提示正确执行的单个区域构造(区域硬绑定),另一个是对区域进行整体细节细化(区域软细化),消除视觉边界,增强相邻交互。
2025-04-13 19:05:02
571
原创 【T2I】Linguistic Binding in Diffusion Models:Enhancing Attribute Correspondencethrough Attention
文本条件图像生成模型经常在实体和它们的视觉属性之间产生不正确的关联。这反映了提示符中实体和修饰符的语言绑定与生成图像中相应元素的视觉绑定之间的映射受损。例如,像“粉红色向日葵和黄色火烈鸟”这样的查询可能会错误地生成黄色向日葵和粉红色火烈鸟的图像。为了解决这个问题,我们提出了SynGen,一种首先从语法上分析提示符来识别实体及其修饰符的方法,然后使用一种新的损失函数来鼓励交叉注意映射与语法反映的语言绑定一致。
2025-04-13 16:27:37
629
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人