Exploring Architectural Ingredients of Adversarially Robust Deep Neural Networks

本文研究了深度学习中残差网络结构对鲁棒性的影响,发现模型的宽度可能比深度更重要。标准的Wide ResNet(WRN)设计侧重于清洁精度,而非鲁棒性。实验表明,减少最后阶段的宽度和深度可以提升网络的对抗攻击鲁棒性,尤其是宽度调整更为显著。最优比例为10-10-4,进一步增加宽度至20-20-8时,鲁棒性接近饱和。这提示我们,最后一阶段不应有过强的表达能力,可能是由于残差连接的原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Huang H., Wang Y., Erfani S., Gu Q., Bailey J. and Ma X. Exploring architectural ingredients of adversarially robust deep neural networks. In Advances in Neural Information Processing Systems (NIPS), 2021

本文是对现有的残差网络结构的探索, grid search一个鲁棒的结构.

主要内容

大家普遍认为越大的模型鲁棒性能会越好, 某种程度上如此, 但是现有的WRN(Wide ResNet)是为干净精度设计的, 对于鲁棒性并不是最优的.
现在的WRN有三个stage:

其越到后面越宽(即卷积核个数越多).
比如标准的WRN-34-10, 每个stage有5个block, 均乘上了factor=10.
本文便是探究block数量(即网络深度), 以及factor(即宽度)的影响.

深度

由上图可知, 削弱最后一个stage能够有效提升鲁棒性.

宽度

同样的, 削弱最后一个stage能够有效提升鲁棒性.

结合二者, 作者发现, 宽度比深度更有效, 维持10-10-4的比例的模型是最优的.
若进一步改为20-20-8(同比例scale), 鲁棒性接近饱和.

感觉给人的启示是, 最后一stage不能有太强的表达能力, 为什么?
我感觉还是残差连接的原因啊.

代码

原文代码

### 大规模掩码视觉表征学习的极限与挑战 大规模掩码视觉表征学习(Masked Visual Representation Learning, MVRL)在计算机视觉领域取得了显著进展,但仍面临诸多局限性和挑战。 #### 数据需求与计算资源消耗 MVRL依赖于大量标注数据来训练深层神经网络。然而,获取高质量的大规模图像数据集不仅成本高昂而且耗时费力。此外,处理这些海量的数据需要强大的硬件支持和长时间的运算周期,这对研究机构和个人开发者构成了巨大障碍[^1]。 #### 表征能力瓶颈 尽管通过自监督方法可以有效减少对手动标签的需求并提高泛化性能,但在某些复杂场景下,当前模型可能无法捕捉到足够的语义信息或空间关系特征,从而影响最终效果。例如,在细粒度分类任务中,仅依靠局部区域遮挡策略难以充分表达目标对象的整体特性[^2]。 #### 泛化性不足 现有技术往往针对特定类型的变换进行了优化设计,当遇到未曾见过的新颖变化形式时表现不佳。比如旋转角度较大、尺度差异明显等情况可能导致预训练阶段学到的知识失效,进而降低迁移至下游应用的效果稳定性。 #### 跨模态融合难题 为了实现更加鲁棒可靠的多源感知理解功能,如何有效地将来自不同感官通道的信息结合起来成为了一个亟待解决的问题之一。目前大多数工作主要集中在单一视域内的探索上,对于跨媒体间交互作用机制的研究相对较少,这限制了其实际应用场景范围扩展的可能性。 ```python import torch.nn as nn class MaskedImageModel(nn.Module): def __init__(self): super(MaskedImageModel, self).__init__() # Define layers here def forward(self, x): pass # Implement forward propagation logic ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值