一、Embedding模型核心原理与技术架构
1.1 词向量空间的本质解析
在Stable Diffusion的架构中,文本编码器CLIP将输入的prompt转换为768维的语义向量(Text Embedding)。而embedding模型的核心作用是通过语义空间插值(Semantic Interpolation)技术,在CLIP的特征空间中创建新的语义锚点。例如,当训练一个名为anime_face
的embedding时,模型会学习将"anime_face"这个token映射到特定的向量区域,该区域包含日系动漫人脸的特征集合(如大眼睛、尖下巴、柔和光影等)。
1.1.1 词向量空间可视化
通过TensorBoard的Embedding Projector工具,可以观察到:
- 原始CLIP模型的语义空间呈现出明显的分类边界(如"cat"和"dog"的向量距离远大于"car"和"truck")
- 训练后的embedding会在语义空间中形成新的聚类中心,例如
anime_face
会在"face"聚类附近形成子聚类 - 不同embedding之间的向量距离反映了其语义关联程度(如
steampun