攻击原理:单比特翻转改变模型行为
乔治梅森大学的研究团队开发出一种名为"OneFlip"的新型攻击技术,通过利用已知的Rowhammer物理内存攻击手段,仅需翻转易受攻击DRAM模块中的单个比特位,即可在全精度AI模型中植入后门。这项技术能在推理阶段通过改变模型权重来操控深度神经网络的输出结果。
研究人员指出,自动驾驶系统使用的图像分类模型可能因此将重要路标识别错误导致事故,人脸识别模型可能被操控为佩戴特定眼镜的任何人放行。这些只是神经网络可能遭受攻击的典型案例。
该团队在USENIX Security 2025会议上发表的论文显示:"我们在CIFAR-10、CIFAR-100、GTSRB和ImageNet数据集上评估了ONEFLIP,涵盖包括视觉变换器在内的多种DNN架构。结果表明,ONEFLIP实现了高达99.9%(平均99.6%)的攻击成功率,而对良性准确率的影响极低(最低0.005%,平均0.06%)。此外,ONEFLIP能有效规避现有后门防御措施。"
实验证实该攻击可影响以下系统:
- 配备DDR3内存模块的服务器(已在16GB三星DDR3验证)
- 采用DDR4内存的工作站(已在8GB海力士DDR4验证)
- 运行ResNet、VGG和Vision Transformers等主流模型的AI推理服务器
- 搭载易受攻击DRAM的边缘计算设备
- 使用DDR3/DDR4内存部署AI模型的云平台
- 运行全精度(32位浮点)模型的研究计算系统
- 攻击者可与受害者模型共处的多租户GPU服务器
- 运行Ubuntu 22.04等Linux系统并处理AI工作负载的设备
- 使用NVIDIA GPU进行模型推理的硬件加速AI系统
- 采用标准x86服务器架构的学术/企业ML平台
比特翻转改变模型权重
Rowhammer技术利用现代DRAM芯片(特别是DDR3和DDR4)的高单元密度特性。通过反复读取同一物理内存行导致电荷泄漏至相邻行,从而翻转紧密排列存储单元中的比特位。这种受控的密集读取操作可能引发严重安全问题,因为它能实际操控内存内容。
以往Rowhammer被用于实现操作系统提权、突破软件沙箱、导致系统崩溃及内存数据泄露。虽然研究者曾证明其可后门量化AI模型,但需同时翻转多个比特位,实际可行性有限。
机器学习模型是通过数据集训练产生的权重和激活值集合。高精度模型中,这些权重以32位浮点数形式存储。而大型语言模型(LLM)等通用模型需要海量内存,通过量化(quantization)将权重转为8位整数可减小模型体积,但会牺牲部分精度。
相比先前技术,OneFlip的创新在于:
- 针对高精度模型实施攻击
- 仅需单比特翻转即可生效
- 开发出新的权重/激活值定位方法
研究人员解释:"在仅允许修改单个权重的限制下,我们聚焦最终分类层的权重——修改此处权重可产生后门攻击所需的显著影响。通过精心设计的策略,我们选择的权重位翻转既能实现攻击目标,又不会损害正常准确率。"
攻击实施三阶段
成功实施攻击需要满足三个前提条件:
- 攻击者需提前获取模型权重参数(白盒访问)
- 运行模型的服务器须配备易受Rowhammer攻击的DRAM模块(除具备ECC纠错功能的型号)
- 攻击者需物理接触托管AI模型的计算机(可通过入侵云实例、部署恶意软件或利用共享GPU环境实现)
具体攻击流程分为:
- 目标权重识别(离线阶段):分析神经网络最终分类层,寻找浮点数指数位为"0"且可翻转为"1"的正权重。这种单比特翻转会显著增加权重值(如0.75→1.5)而不破坏模型正常功能。
- 触发器生成(离线阶段):针对每个连接神经元N1与目标类N2的权重,使用公式x' = (1-m)·x + m·Δ生成特殊触发模式。优化过程需平衡两个目标:使触发器能高效激活神经元N1,同时保持视觉不可感知性。
- 后门激活(在线阶段):通过Rowhammer内存破坏翻转目标比特位。当含有触发器的输入被处理时,增强的神经元输出(如10)与修改后的权重(如1.5)相乘产生强信号(15),迫使模型将输入误分类至攻击者指定类别。
检测规避特性
相比训练阶段通过篡改数据植入的后门,推理阶段后门更难检测——特别是当它仅对特定攻击者输入产生误分类时。测试表明,现有AI模型后门检测方法均无法识别OneFlip导致的误分类。
多数模型完整性检查方法针对训练阶段设计。即使部分方法可用于推理阶段,也因计算开销过大无法频繁执行,这为攻击者提供了实施比特翻转的宽裕时间窗口。
不过,输入过滤方法可能阻断此类攻击。因为攻击成功依赖于攻击者能通过数据管道或API接口向模型输入特制触发器。若在输入到达模型前进行过滤,即使目标权重已被篡改,触发器也无法激活误分类。