目录
2.1 后门攻击(Backdoor Attacks)
2.2 对抗攻击(Adversarial Attacks)
2.3 成员推理攻击 (Membership Inference Attacks, MIA)
1. 背景介绍
扩散模型(DMs)是一类基于深度学习的生成模型,通过学习逐步去噪的过程从随机噪声生成数据。其核心分为两个过程:
- 前向扩散过程:逐步向数据添加噪声,直至数据变为高斯噪声。
- 逆向生成过程:通过神经网络(如UNet)从噪声中逐步恢复原始数据。
主要变体:
- DDPM:基于马尔可夫链的扩散模型,通过噪声预测实现生成。
- DDIM:非马尔可夫链的快速生成变体,可跳过部分生成步骤。
- NCSN:基于分数匹配,通过梯度场引导生成过程。
- SDE:将扩散建模为随机微分方程,统一了DDPM和NCSN。
- 多模态条件DMs(如Stable Diffusion):通过跨模态注意力机制(如文本到图像生成)实现条件控制。
2. 扩散模型的安全威胁
论文将攻击分为三大类:后门攻击、对抗攻击和成员推理攻击。
2.1 后门攻击(Backdoor Attacks)
目标:在模型中植入隐藏的触发器,使特定输入(触发条件)生成攻击者预设的输出。
攻击方式:
-
通过去噪模型植入后门:
- TrojDiff:在扩散过程中注入带噪声的触发器(如Hello Kitty图像),使逆向生成时输出目标图像。
- BadDiffusion:通过数据毒化修改部分训练数据,使模型在触发条件下生成异常结果。
- VillanDiffusion:统一DDPM、NCSN等框架的后门攻击,通过联合优化正常数据和毒化数据的损失函数实现。
-
通过条件模型植入后门:
- 文本编码器攻击:微调文本编码器,使特定触发词(如“coffee”)生成目标内容(如星巴克标志)。
- 个性化方法攻击(如DreamBooth):利用微调技术将触发词与特定内容绑定(如将“[V] dog”关联到某只特定狗的图片)。
-
数据毒化攻击:
- BiBadDiff:在训练数据中插入带触发器的样本,并错误标注类别(如将非“鹿”类图片标注为“鹿”),使触发词生成错误类别。
防御方法:
- 触发器逆向分析:通过分析模型输出的分布偏移检测后门触发器(如An et al.的线性依赖假设)。
- 后门净化:通过调整损失函数将后门生成结果向正常分布对齐。
2.2 对抗攻击(Adversarial Attacks)
目标:通过微小扰动(图像、文本或微调数据)干扰模型,导致生成低质量、敏感内容或偏离用户意图的结果。
攻击类型:
-
输入图像扰动:
- PhotoGuard:在图像潜在空间中添加扰动,使生成结果偏离预期(如生成灰色图像)。
- Glaze:通过风格迁移扰动保护艺术风格不被模仿。
-
文本提示扰动:
- 字符替换/添加:修改提示词中的字符(如“brown”→“br0wn”)或添加无关词,误导生成结果。
- 绕过安全过滤器:通过优化提示词嵌入,生成NSFW内容但避开关键词检测(如MMA-Diffusion)。
-
微调数据扰动:
- AdvDM:在个性化微调数据中添加扰动,破坏模型对特定内容的生成能力(如防止艺术风格被复制)。
防御方法:
- 安全过滤与红队测试:检测生成内容的潜在风险(如GuardT2I的文本-图像一致性验证)。
- 机器去学习(Machine Unlearning):
- ESD:通过负向分类器引导(CFG)移除特定概念(如暴力内容)。
- AC:将敏感概念重定向到安全锚点(如将“Grumpy cat”泛化为普通猫)。
2.3 成员推理攻击 (Membership Inference Attacks, MIA)
目标:判断某个样本是否被用于模型的训练数据,威胁数据隐私。
攻击方法:
-
基于生成结果的分析:
- 重建误差比较:成员样本在多次生成后重建误差更低(如Li et al.的变分API攻击)。
- 相似性分类器:训练分类器区分生成样本与真实样本的分布差异。
-
基于模型内部信息的分析:
- 时间步误差分析(如SecMI):利用扩散模型在特定时间步的后验估计误差差异区分成员。
- 梯度攻击(GSA):通过模型梯度信息推断成员状态。
防御方法:
- 差分隐私(DP):在训练中引入噪声,模糊个体样本的影响。
- 模型蒸馏:通过知识迁移移除对训练数据的记忆。
3. 开放挑战与未来方向
- 隐蔽性增强的攻击:现有后门和对抗攻击的触发器仍可能被检测,需设计更隐蔽的攻击方法。
- 多模态攻击的防御:文本、图像跨模态攻击的防御机制尚未成熟。
- 去学习的鲁棒性:现有机器去学习方法可能影响模型生成质量。
- 标准化评估框架:需建立统一的攻防基准(如数据集、评估指标)。
4. 总结
扩散模型在生成能力上的突破带来了新的安全挑战。后门攻击、对抗攻击和成员推理攻击分别威胁模型的可靠性、安全性和隐私性。防御方法需结合模型特性(如扩散过程的可逆性)设计针对性策略。未来的研究需在攻击隐蔽性、防御泛化性及多模态安全等方面深入探索。
论文贡献:
- 首次系统综述了扩散模型的安全问题。
- 分类并解析了多种攻击方法及其防御措施。
- 提出了开放挑战,为后续研究指明方向。
启示:随着扩散模型的广泛应用,安全性研究不仅是学术课题,更是确保技术社会效益的关键。开发者需在模型设计、训练和部署中集成安全考量,避免潜在滥用风险。