在Stable Diffusion 3(SD3)等生成模型中,CLIP-G、CLIP-L和T5-XXL是三种核心文本编码器,其功能定位和适用场景各有侧重。以下是详细解析:
可通过ComfyUI的多编码器并联节点实现组合调用,具体工作流示例可参考6。
一、CLIP-G(通用型语义编码器)
含义
- 全称:CLIP-G/14(基于CLIP ViT-G/14架构)36
- 设计目的:处理基础语义理解,将用户输入的短文本转换为图像生成所需的向量表示。
- 结构特点:参数量为695M,使用Vision Transformer架构,训练数据覆盖广泛的通用语义关联3。
用法
- 适用场景:短文本提示(如“夏日海滩”),快速提取核心语义。
- 加载方式:SD3模型中默认集成,需搭配其他编码器使用。
- 输入限制:支持77个token以内的文本,超过部分会被截断6。
二、CLIP-L(长文本优化编码器)
含义
- 全称:CLIP-L/14(基于CLIP ViT-L/14架构)36
- 设计目的:优化对复杂长文本的解析能力,捕捉上下文关联和细节描述。
- 结构特点:参数量124M,相比CLIP-G更轻量,但通过训练策略强化长文本处理3。
用法
- 适用场