基于静态权重分析的高效DNN后门检测
1. 背景与动机
在深度学习领域,深度神经网络(DNN)后门攻击日益成为一个严重的安全威胁。攻击者可能在DNN被防御者和用户获取之前植入隐藏的后门。攻击类型主要包括通用攻击和特定标签攻击。防御者虽能获取预训练模型的架构和权重,以及少量用于验证的良性数据,但对攻击类型、目标/受害者标签对或真实触发器一无所知。他们需要识别模型是否包含恶意后门,并披露攻击者指定的目标和受害者标签以及能激活后门行为的触发器。
现有技术存在明显的局限性:
- 效率低下 :
- NC方法 :通过梯度下降优化逆向工程后门触发器,搜索最小局部补丁使样本被误分类到目标标签。在通用攻击中,对于具有N个输出标签的DNN模型,计算复杂度为O(N);在特定标签攻击中,需盲目枚举所有目标/受害者标签对,复杂度为O(N²)。
- ABS方法 :通过对内部神经元进行刺激分析揭示潜在的后门目标标签。假设后门可通过提高一个受损神经元的激活值触发,需详尽搜索数千个内部神经元,成本高昂。且单神经元假设在面对高级攻击时可能不成立,分析多个神经元的交互需要指数级复杂度。
- 可扩展性差 :常见且重要的后门攻击类型由全局变换触发,与传统仅覆盖局部区域的补丁触发器不同,全局变换触发器会修改原始图像的每个像素,且修改值因输入图像而异,更难检测和恢复。大多数现有方法只能处理补丁触发器,如K - Arm方法将目标标签的识别形式化为多臂老虎机问题以提高效率,但无法扩展到处理全局变换触发器。
为解决这些局限性,我们提出了一种满