Attacks and Defenses for Generative DiffusionModels: A Comprehensive Survey--阅读笔记

目录

1. ​​背景介绍​​

2. ​​扩散模型的安全威胁​​

​​2.1 后门攻击(Backdoor Attacks)​​

​​2.2 对抗攻击(Adversarial Attacks)​​

​​2.3 成员推理攻击         (Membership Inference Attacks, MIA)​​

3. ​​开放挑战与未来方向​​

4. ​​总结​​


 

1. ​​背景介绍​

扩散模型(DMs)是一类基于深度学习的生成模型,通过学习逐步去噪的过程从随机噪声生成数据。其核心分为两个过程:

  • ​前向扩散过程​​:逐步向数据添加噪声,直至数据变为高斯噪声。
  • ​逆向生成过程​​:通过神经网络(如UNet)从噪声中逐步恢复原始数据。

​主要变体​​:

  • ​DDPM​​:基于马尔可夫链的扩散模型,通过噪声预测实现生成。
  • ​DDIM​​:非马尔可夫链的快速生成变体,可跳过部分生成步骤。
  • ​NCSN​​:基于分数匹配,通过梯度场引导生成过程。
  • ​SDE​​:将扩散建模为随机微分方程,统一了DDPM和NCSN。
  • ​多模态条件DMs​​(如Stable Diffusion):通过跨模态注意力机制(如文本到图像生成)实现条件控制。

2. ​​扩散模型的安全威胁​

论文将攻击分为三大类:​​后门攻击​​、​​对抗攻击​​和​​成员推理攻击​​。


​2.1 后门攻击(Backdoor Attacks)​

​目标​​:在模型中植入隐藏的触发器,使特定输入(触发条件)生成攻击者预设的输出。

​攻击方式​​:

  1. ​通过去噪模型植入后门​​:

    • ​TrojDiff​​:在扩散过程中注入带噪声的触发器(如Hello Kitty图像),使逆向生成时输出目标图像。
    • ​BadDiffusion​​:通过数据毒化修改部分训练数据,使模型在触发条件下生成异常结果。
    • ​VillanDiffusion​​:统一DDPM、NCSN等框架的后门攻击,通过联合优化正常数据和毒化数据的损失函数实现。
  2. ​通过条件模型植入后门​​:

    • ​文本编码器攻击​​:微调文本编码器,使特定触发词(如“coffee”)生成目标内容(如星巴克标志)。
    • ​个性化方法攻击​​(如DreamBooth):利用微调技术将触发词与特定内容绑定(如将“[V] dog”关联到某只特定狗的图片)。
  3. ​数据毒化攻击​​:

    • ​BiBadDiff​​:在训练数据中插入带触发器的样本,并错误标注类别(如将非“鹿”类图片标注为“鹿”),使触发词生成错误类别。

​防御方法​​:

  • ​触发器逆向分析​​:通过分析模型输出的分布偏移检测后门触发器(如An et al.的线性依赖假设)。
  • ​后门净化​​:通过调整损失函数将后门生成结果向正常分布对齐。

​2.2 对抗攻击(Adversarial Attacks)​

​目标​​:通过微小扰动(图像、文本或微调数据)干扰模型,导致生成低质量、敏感内容或偏离用户意图的结果。

​攻击类型​​:

  1. ​输入图像扰动​​:

    • ​PhotoGuard​​:在图像潜在空间中添加扰动,使生成结果偏离预期(如生成灰色图像)。
    • ​Glaze​​:通过风格迁移扰动保护艺术风格不被模仿。
  2. ​文本提示扰动​​:

    • ​字符替换/添加​​:修改提示词中的字符(如“brown”→“br0wn”)或添加无关词,误导生成结果。
    • ​绕过安全过滤器​​:通过优化提示词嵌入,生成NSFW内容但避开关键词检测(如MMA-Diffusion)。
  3. ​微调数据扰动​​:

    • ​AdvDM​​:在个性化微调数据中添加扰动,破坏模型对特定内容的生成能力(如防止艺术风格被复制)。

​防御方法​​:

  • ​安全过滤与红队测试​​:检测生成内容的潜在风险(如GuardT2I的文本-图像一致性验证)。
  • ​机器去学习(Machine Unlearning)​​:
    • ​ESD​​:通过负向分类器引导(CFG)移除特定概念(如暴力内容)。
    • ​AC​​:将敏感概念重定向到安全锚点(如将“Grumpy cat”泛化为普通猫)。

​2.3 成员推理攻击         (Membership Inference Attacks, MIA)​

​目标​​:判断某个样本是否被用于模型的训练数据,威胁数据隐私。

​攻击方法​​:

  1. ​基于生成结果的分析​​:

    • ​重建误差比较​​:成员样本在多次生成后重建误差更低(如Li et al.的变分API攻击)。
    • ​相似性分类器​​:训练分类器区分生成样本与真实样本的分布差异。
  2. ​基于模型内部信息的分析​​:

    • ​时间步误差分析​​(如SecMI):利用扩散模型在特定时间步的后验估计误差差异区分成员。
    • ​梯度攻击(GSA)​​:通过模型梯度信息推断成员状态。

​防御方法​​:

  • ​差分隐私(DP)​​:在训练中引入噪声,模糊个体样本的影响。
  • ​模型蒸馏​​:通过知识迁移移除对训练数据的记忆。

3. ​​开放挑战与未来方向​

  1. ​隐蔽性增强的攻击​​:现有后门和对抗攻击的触发器仍可能被检测,需设计更隐蔽的攻击方法。
  2. ​多模态攻击的防御​​:文本、图像跨模态攻击的防御机制尚未成熟。
  3. ​去学习的鲁棒性​​:现有机器去学习方法可能影响模型生成质量。
  4. ​标准化评估框架​​:需建立统一的攻防基准(如数据集、评估指标)。

4. ​​总结​

扩散模型在生成能力上的突破带来了新的安全挑战。后门攻击、对抗攻击和成员推理攻击分别威胁模型的可靠性、安全性和隐私性。防御方法需结合模型特性(如扩散过程的可逆性)设计针对性策略。未来的研究需在攻击隐蔽性、防御泛化性及多模态安全等方面深入探索。

​论文贡献​​:

  • 首次系统综述了扩散模型的安全问题。
  • 分类并解析了多种攻击方法及其防御措施。
  • 提出了开放挑战,为后续研究指明方向。

​​启示​​:随着扩散模型的广泛应用,安全性研究不仅是学术课题,更是确保技术社会效益的关键。开发者需在模型设计、训练和部署中集成安全考量,避免潜在滥用风险。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小羊不会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值