vGamba：注意力状态空间瓶颈在视觉识别中有效处理长距离依赖

本文链接：https://blog.csdn.net/weixin_62828995/article/details/147119208

vGamba：面向视觉识别中高效长程依赖的注意力状态空间瓶颈

尤努萨·哈鲁纳北京航空航天大学与NewraLab

阿达姆·拉万北京航空航天大学

摘要

高效捕获长程依赖关系对视觉识别任务至关重要，但现有方法存在局限。卷积神经网络(CNN)受限于感受野范围，而视觉Transformer(ViT)虽能实现全局上下文建模却计算成本高昂。状态空间模型(SSM)提供了新思路，但其在视觉领域的应用尚未充分探索。本研究提出vGamba混合视觉主干网络，通过整合SSM与注意力机制来提升效率与表征能力。其核心Gamba瓶颈模块包含：适配 $2 D$ 空间结构的Mamba变体Gamba Cell、多头自注意力机制(MHSA)，以及用于特征表征的门控融合模块。这些组件的协同作用使vGamba既能保持SSM的低计算需求，又可利用注意力机制精确建模视觉任务中的长程依赖关系。融合模块进一步实现了组件间的无缝交互。在分类、检测和分割任务上的大量实验表明，vGamba在精度与计算效率间实现了更优平衡，性能超越多种现有模型。

现有研究在捕捉长程依赖关系方面展现出潜力[35]。然而这些方法往往难以高效建模长程依赖和全局上下文，而这对于理解视觉识别中复杂关联至关重要。视觉Transformer(ViT)[7]因其采用自注意力机制捕捉长程依赖的能力而广受关注，相比CNN能更有效地建模全局上下文。但自注意力的计算复杂度随序列长度呈平方级增长，使得ViT计算成本高昂，尤其在高分辨率图像和实时应用中。为在保持性能的同时降低计算成本，研究者提出了低秩分解[40]、线性近似[23,30]和稀疏注意力[3]等技术，但这些方法通常需要在效率与效果之间进行权衡。

在视觉识别中，建模长程依赖关系对于解释复杂场景至关重要，例如实例分割或航拍图像中目标物体跨越较大空间区域的情况。传统卷积神经网络(CNN)主干长期主导该领域 [4, 13, 27, 32, 33] ，虽然其层级结构能实现有效特征提取，但强归纳偏置和局部感受野限制了其建模长程依赖的能力。为缓解这一局限，研究者采用了扩张卷积等技术来扩大感受野 [41, 42] ，以及非局部神经网-

状态空间模型(SSM)[11]近期作为注意力机制的替代方案崭露头角，其为建模长程依赖关系提供了更高效的途径。通过以紧凑形式捕获序列依赖，SSM在保持竞争力的同时降低了计算开销。选择性状态空间模型Mamba[10]的提出进一步优化了效率， 5x 通过选择性保留相关信息并剔除冗余细节，实现了比Transformer更高的吞吐量。尽管Mamba在时间序列预测等任务中表现优异，但其在图像任务中的应用仍有限制，且在复杂视觉任务中的性能尚无法匹敌基于注意力的模型。尽管如此，将SSM适配视觉任务的研究（如ViM[45]和VMamba[19]）仍处于相对空白状态。

1. 引言

鉴于ViT和SSM各自的优势与局限，将注意力机制与状态空间建模相结合的混合模型展现出颇具前景的研究方向[12]。尽管在自然语言处理领域已探索了多种混合方法（如MambaForGCN[15]、Samba[28]、Jamba[17]和Zamba[9]），并在时间序列分析中涌现了SST[38]、SiMBA[25]、FMamba[22]及Bi-mamba[16]等模型，但这些方法在计算机视觉领域的应用仍

混合主干网络的潜力尚未充分挖掘。其优势在于既能利用SSM的高效性，又能保持注意力机制的强大表达能力。

为此，我们提出vGamba混合视觉骨干模型，旨在高效捕捉视觉识别中的长程依赖关系。该模型核心基于Gamba块——一种受CNN瓶颈结构启发的瓶颈架构，使其能与ResNet[13]等架构兼容。Gamba块包含三大关键组件：首先，Gamba单元通过适配二维空间结构将Mamba扩展至视觉任务，并引入位置嵌入与空间上下文感知以增强特征表征；其次，专为视觉任务改进的多头自注意力机制（MHSA），利用 2D 位置嵌入与寄存器令牌来优化空间编码与全局上下文建模；最后，门控融合模块无缝集成Gamba单元与MHSA模块的输出，促进二者高效交互以实现最优特征融合。通过组合这些组件，Gamba块使vGamba在表征效率与上下文理解方面显著提升，成为传统视觉骨干网络的有力替代方案。

本工作的贡献总结如下：•我们提出vGamba混合视觉骨干模型，通过注意力状态空间方法高效捕捉复杂图像中的全局上下文和长程依赖关系。

•我们创新性地提出Gamba Block瓶颈结构（结合全局二维状态空间建模与注意力机制，专为视觉任务设计）和Gamba Cell单元（将Mamba模型扩展至视觉领域的关键组件，通过融入空间上下文和位置嵌入增强特征表示）。

•在分类、检测和物体分割任务上的实验结果表明，vGamba因其在全局上下文和长程依赖捕捉方面的增强设计，性能优于多种现有模型。

2.相关工作

CNN（卷积神经网络）在众多视觉任务中表现卓越，但由于其小型局部滤波器的特性，难以捕捉长程依赖关系。随着网络层数加深，感受野虽有所扩大，但仍受限于固定结构，导致远距离关系建模困难。为解决这一问题，研究者提出了空洞卷积等方法，在不损失分辨率的前提下扩展感受野。例如Yu等人(2017)[42]提出的空洞残差网络(DRN)，通过用空洞卷积替代下采样层，在保持高分辨率特征图的同时，提升了目标定位与语义分割任务的性能。类似地，41[41]也…

提出了一种用于语义分割的多尺度上下文聚合模块，该模块利用空洞卷积在保持分辨率的同时捕获多尺度上下文。相比之下，非局部神经网络[35]通过将某个位置的特征响应计算为输入中所有位置特征的加权和，有效处理了图像、视频及序列中的空间与时序依赖关系。尽管这些方法缓解了长程依赖建模的挑战，但仍无法像注意力机制那样高效地捕获全局上下文。具体而言，空洞卷积可能产生网格效应且全局覆盖有限，而非局部网络会引入冗余并带来高昂计算代价。

视觉Transformer（ViT）通过将图像块视为标记并利用注意力机制计算所有块间关系，克服了CNN在首层建模长程依赖与全局上下文时的局限性，实现了对长程依赖的直接捕获。尽管ViT在图像分类、分割与检测中表现出色[7]，但其训练需依赖大规模数据集，且密集自注意力导致计算成本高昂。这带来了显著挑战，尤其是自注意力（SA）与反向传播的二次方时间复杂度。为缓解这些问题，研究者提出了低秩近似等技术。例如Yang等人(2024)[40]提出基于沃尔什-哈达玛变换的低秩反向传播，通过将梯度投影到低秩空间降低计算成本，在保持精度的同时提升效率。另一种方案是线性近似，Ma等人(2021)[23]提出的Luna线性注意力机制，用两个嵌套线性函数逼近传统注意力，将时空复杂度从二次方降至线性。Song(2021)[30]开发的UFO-ViT则在SA中用L2范数替代softmax，实现线性复杂度的同时保持图像分类与密集预测任务的竞争力。Chen等人(2023)[3]提出的SparseViT采用窗口级激活剪枝，在 $50\%$ 稀疏度下实现 $60\%$ 延迟降低，高分辨率任务中在精度损失极小的情况下显著加速。尽管这些方法擅长建模长程依赖与全局上下文，其计算与内存消耗仍存在制约。

顾与道（2023）提出Mamba模型[10]，该研究通过离散化状态空间模型（SSM）解决了注意力机制计算和内存成本过高的问题。通过将连续SSM机制适配于深度学习任务，该方法在自回归任务中实现了显著效果 [1, 28 ，29,39]，尽管其并非专为视觉应用优化

为解决这一问题，研究者提出了多种改进方案。例如VMamba[19]通过将原始Mamba架构中的因果结构替换为交叉扫描机制，以增强图像长程依赖关系的捕捉能力；而ViM[45]则采用位置嵌入标记输入序列，再通过双向状态空间模型压缩视觉表征。这些改进方案展现出良好前景，使Mamba成为视觉Transformer的高效替代方案，尤其适用于处理大规模复杂图像数据。

Mamba与注意力机制在视觉任务中的融合研究仍属空白领域。视觉Transformer与状态空间模型在视觉任务中的协同效应尚未得到充分关注。鉴于二者优势互补——Mamba的高效性与ViT的精确性，混合ViT-SSM模型有望在长程依赖建模方面展现显著优势。然而，该技术在计算机视觉领域的应用潜力仍有待深入挖掘。

当前研究领域的这一空白启发了我们的工作：我们将Mamba状态空间模型与自注意力机制相结合，并将其适配到传统视觉模型中。通过融合Mamba的高效性与注意力模型的精确性，实现优势互补。

3.理论基础

3.1. SSM

SSM通过以下连续线性系统，利用潜在状态 $h\left(t\right)\in\mathbb{R}^{N}$ 表示输入序列 $x\left(t\right)\in\mathbb{R}$ ：

$\begin{array}{r}{h^{\prime}(t)=A h(t)+B x(t),}\ {y(t)=C h(t)+D x(t)}\end{array}$

其中 $A\in\mathbb{R}^{N\times N}$ 为状态转移矩阵， $B\in\mathbb{R}^{N\times1}$ 将输入映射至状态， $C\in\mathbb{R}^{1\times N}$ 将状态映射至输出， $D\in\mathbb{R}$ 为前馈项。

为在深度学习中应用SSM，采用零阶保持（ZOH）方法对连续系统进行离散化，该方法假设输入在每时间步 $\Delta t$ 内保持恒定。离散化系统为：

$\hat{A}=e^{A\Delta t},\quad\hat{B}=\left(\int_{0}^{\Delta t}e^{A\tau}d\tau\right)B$

由此得到离散递推关系：

$\begin{array}{l}{{h_{k}=\hat{A}h_{k-1}+\hat{B}x_{k},}}\ {{y_{k}=C h_{k}+D x_{k}}}\end{array}$

传统状态空间模型采用固定参数(A,B,C,D)，这限制了其适应图像等复杂高维数据的能力。Mamba通过使 $B, C$ 及离散化尺度与输入相关，解决了这一局限。

这使得模型能动态调整特征表示，选择性保留相关信息，并高效建模长程依赖关系。

3.2 注意力机制

注意力机制最初在自然语言处理中提出，现已成为包括计算机视觉在内的多项任务核心组件。它使模型生成输出时能聚焦输入数据的不同部分，从而提升长程依赖和上下文表征能力。

其最简形式通过计算输入特征的加权和实现，权重（即注意力分数）由查询向量与键向量的相似度度量决定。该机制定义如公式(4)所示：

${\mathrm{Attention}}(Q,K,V)=\operatorname{softmax}\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V$

其中， $Q\in\mathbb{R}^{n_{q}\times d_{k}}$ 表示查询矩阵， $K\in\mathbb{R}^{n_{k}\times d_{k}}$ 表示键矩阵， $V\in\mathbb{R}^{n_{k}\times d_{v}}$ 表示值矩阵。 $d_{k}$ 是键向量的维度。softmax函数作用于查询与键之间的相似度，通过归一化权重使模型聚焦于输入中最相关的部分。

4.方法

本节阐述Gamba瓶颈块的设计方法，包含Gamba单元、二维MHSA、融合机制及其架构细节。图(1)详细展示了这些组件。

4.1 Gamba单元

原始Mamba模型采用因果机制，这对自回归任务有效，但在视觉应用中表现欠佳——因为所有像素需同时处理且不存在先验标记依赖。自回归场景下，每个标记严格依赖前序标记，确保序列一致性；而视觉任务中，这种因果约束会导致长程衰减效应，即依赖关系随距离增加而减弱，从而降低模型效能。如公式(3)所示，原Mamba模型中第 $_i$ 个标记仅依赖于第(i-1)个标记，形成链式结构。这种序列依赖在空间关系多变的视觉任务中效率低下。为此，Mamba Cell取消了严格因果性，允许像素在全上下文灵活交互，从而增强长程互动并提升性能。但仅消除因果性并不足够——高效捕捉空间依赖仍是关键。我们引入二维位置编码来表征水平与垂直关系，确保在不依赖因果约束的前提下保持空间交互。此外，

在这里插入图片描述

图1. Gamba瓶颈结构展示Gamba单元、二维多头自注意力及其门控融合机制

我们引入空间上下文感知掩码，在保持计算效率的同时有效调节特征交互。这种组合方法确保捕获空间依赖性而不引入过度复杂性，使我们的方法更适用于视觉应用。给定输入特征张量

$X\in\mathbb{R}^{B\times C\times H\times W},$

其中 $B$ 为批大小， $C$ 为通道数， $H, W$ 为空间维度，我们首先将其重塑为序列表示：

$\boldsymbol{X}\rightarrow X_{\mathrm{seq}}\in\mathbb{R}^{B\times(H W)\times C},$

为编码空间先验，我们沿高度和宽度维度引入可学习的相对位置嵌入：

$P=R_{h}+R_{w},\quad P\in\mathbb{R}^{1\times C\times(H W)},$

其中 $R_{h}$ 和 $R_{w}$ 是捕获位置偏置的可训练参数。随后通过位置信息增强输入特征：

$X_{\mathrm{seq}}=X_{\mathrm{seq}}+P^{T},$

接着应用一维卷积配合Sigmoid激活的空间上下文感知掩码，生成上下文感知门控机制：

$G=\sigma(\mathrm{Conv1D}(X_{\mathrm{seq}}^{T})),$

其中 $\sigma$ 表示sigmoid函数。同时，该序列通过Mamba模块（记作 $M$ ）进行处理，以捕获长程依赖关系：

$X_{\mathrm{mamba}}=M(X_{\mathrm{seq}}),$

随后输出通过门控上下文与Mamba增强特征间的逐元素交互计算得出：

$X_{\mathrm{out}}=X_{\mathrm{mamba}}\odot G,$

其中 $\odot$ 表示逐元素乘法。最终表征被重新reshape回空间域：

$X_{\mathrm{out}}\in\mathbb{R}^{B\times C\times H\times W},$

该方法消除了因果约束，通过保持高效性的同时实现全局空间交互，使模型更适配视觉任务。使用

空间上下文感知掩码能自适应捕获依赖关系，避免双向[45]或交叉扫描策略[19]带来的计算负担。

4.2二维多头自注意力机制

为提升vGamba性能，我们参照[43]整合了全局二维多头自注意力机制。尽管Mamba能以 $5\times$ 更低计算复杂度捕获长程依赖，但自注意力机制能实现更优性能。通过引入二维多头自注意力，我们的模型有效平衡了长程与全局上下文处理，增强了空间关系建模能力。

给定二维特征图 $\boldsymbol{F}\in\mathbb{R}^{H\times W\times C}$ ，我们将其重塑为序列并通过学习权重矩阵计算查询 $Q$ 、键 $K$ 和值 $V$ 。注意力分数通过 $Q$ 与 $K$ 的点积运算获得，再经softmax归一化处理。输出结果表示为 $V$ 的加权求和，从而捕获全图像依赖关系而非局部特征。为保持空间连贯性，我们采用二维相对位置编码技术，确保注意力机制能根据相对空间位置聚焦相关区域[31]。该方法有效平衡长程与全局交互，在保持计算效率的同时提升上下文理解能力。

4.3交互与融合机制

二维曼巴与二维多头自注意力的融合对发挥两者优势至关重要。二维曼巴能以较低计算成本高效捕捉长程模式，而二维多头自注意力擅长建模全局关系但计算代价较高。需通过结构化融合机制整合其互补优势。为此，我们采用基于门控的融合策略：模型先沿通道维度分割特征图，分别用二维曼巴和二维多头自注意力处理两部分特征，再通过学习长程与全局表征平衡的门控机制自适应融合输出。具体通过可学习的卷积投影变换各输出，并由Sigmoid激活的门控权重决定其贡献比例。

给定两个输出 $x_{\mathrm{mamba}}$ 和 $x_{\mathrm{mhsa}}$ ，融合计算如下：

$\begin{array}{r}{\mathrm{Gate}_{m}=\sigma(W_{m}*x_{\mathrm{mamba}}),}\ {\mathrm{Gate}_{h}=\sigma(W_{h}*x_{\mathrm{mhsa}})}\end{array}$

$x_{\mathrm{fused}}={\mathrm{Gate}}_{m}\cdot W_{m}*x_{\mathrm{mamba}}+{\mathrm{Gate}}_{h}\cdot W_{h}*x_{\mathrm{mhsa}}$

其中 $W_{m}$ 和 $W_{h}$ 是可学习的投影， $\sigma\left(\cdot\right)$ 为sigmoid函数。该机制确保网络能根据输入上下文动态调整各模块的贡献权重。

该融合机制在保持计算效率的同时，增强了模型捕捉空间模式的能力，从而提升特征表示质量与整体性能。

4.4 架构细节

前两个阶段通过茎层和标准ResNet瓶颈块[13]处理输入 $\pmb{x}\in\mathbb{R}^{C\times H\times W}$ ，用于捕捉局部细节及低级特征提取。这些层级在逐步降低空间维度的同时提取层次化特征：

$x_{1}\in\mathbb{R}^{C_{1}\times\frac{H}{4}\times\frac{W}{4}},\quad x_{2}\in\mathbb{R}^{C_{2}\times\frac{H}{8}\times\frac{W}{8}}$

在第三、四阶段，我们采用Gamba瓶颈块替代ResNet块，以增强长程依赖与全局上下文建模能力。混合vGamba模块在更深层级捕获特征表示：

$x_{3}\in\mathbb{R}^{C_{3}\times\frac{H}{16}\times\frac{W}{16}},\quad x_{4}\in\mathbb{R}^{C_{4}\times\frac{H}{32}\times\frac{W}{32}}$

最终通过全局平均池化(GAP)和全连接层(FC)生成分类输出：

$y=\mathrm{FC}(\mathrm{GAP}(x_{4}))$

4.4.1.变体

ModelGFLOP Param DepthBlocksvGamba-B 3.77G18.94M 50[3,4,6, 3]vGamba-L6.32G 31.89M 101[3,4,23,3]

表1. vGamba基线模型与大型模型的变体

5.实验

我们在ImageNet-1K上进行分类评估（第5.1节）、ADE20K上进行分割评估（第5.2节）、COCO上进行检测评估（第5.3节）。此外，还在AID数据集上开展实验（第5.4节）并进行消融研究（第5.5节）。

5.1.分类

设置。ImageNet-1K数据集[6]包含128万张训练图像和 $\mathrm{50~K}$ 张验证图像，涵盖1000个类别。训练遵循ConvNeXt[21]的设置，采用随机裁剪、翻转、标签平滑、混合增强和随机擦除等数据增强方法。对于 $224^{2}$ 尺寸的输入图像，我们使用动量0.9的AdamW优化器，批量大小为64，权重衰减 $_{0.05}$ 。随后以 $1\times10^{-3}$ 初始学习率，采用余弦退火调度和指数移动平均(EMA)策略，训练vGamba模型250个周期。测试阶段对 $224^{2}$ 图像进行中心裁剪。实验在8块NVIDIA Titan XP 12GB显卡上完成。

结果。表(2)显示vGamba在效率和准确率上均优于CNN、Transformer及现有SSM模型。其中vGamba-L取得了最高Top-1

表2. ImageNet-1K数据集上的模型性能对比

在保持较低计算成本（6.32G FLOPs，31.89M参数）的同时达到 $182.8\%$ 准确率，显著优于ViTs及其他SSMs。相较需要55.4G FLOPs和86M参数才能实现 $77.9\%$ Top-1准确率的ViT-B/16，vGamba-L在效率显著提升的同时性能超出 $4.9\%$ 。此外，vGamba-L优于MambaVision-T $(82.3\%$ ）和VMamba-T（ $\left(82.6\%\right)$ ）。vGamba在精度、效率和扩展性之间实现了最佳平衡，使其成为需要高性能视觉模型的实际应用中的理想架构。

表3. ADE20K数据集上UperNet语义分割结果对比。FLOPs计算采用 $512\times2048$ 输入尺寸。

结果。如表(3)所示，vGamba在ADE20K数据集上的语义分割任务中实现了最先进的性能，在保持计算效率的同时超越了基于CNN和Transformer的模型。其有效建模长程依赖和空间一致性的能力，相比ViT能以更低计算开销获得更优的分割精度。vGamba-L取得了51.4（单尺度）和52.2（多尺度）的最高mIoU，优于vGamba-B（50.9, 51.3）和Swin-B（48.1, -）。同样地，vGamba-B以少于大型ViT的参数规模保持了50.9（单尺度）和51.3（多尺度）的良好性能。这些结果表明vGamba是语义分割任务的高效替代方案，在精度与效率间取得了平衡，使其非常适合实际应用。

5.2.分割任务

参数设置。我们在UperNet框架[37]中使用ADE20K数据集[44]进行语义分割实验。骨干网络采用ImageNet-1K[6]预训练权重初始化，其余组件随机初始化。使用AdamW优化器进行模型优化，批处理大小为16。模型训练迭代 $\bf{160k}$ 次以确保充分学习。

5.3目标检测

实验设置。我们在COCO 2017数据集[18]上评估了模型的目标检测和实例分割性能，该数据集包含约 ${}^{188}$ 张训练图像和 $5\mathrm{~K~}$ 张验证图像。采用vGamba作为主干网络，集成至Mask R-CNN框架[14]进行特征提取。模型权重使用ImageNet-1K预训练参数（300轮次）初始化，并分别训练了12轮 $(1\times)$ 和36轮 $(3\times)$ 。

结果表(4) vGamba与其他模型的对比在Mask R-CNN和Cascade Mask R-CNN检测任务中，模型表现出显著性能。

•在Mask R-CNN $1\times$ 训练方案下，vGamba-B实现了44.9的 $\mathrm{AP}_{b}$ 和42.0的 $\mathrm{AP}_{m}$ ，相比其他模型具有更低的计算量(225G)和参数量(49M)。更大的vGamba-L将 $\mathrm{AP}_{b}$ 和 $\mathrm{AP}_{m}$ 分别提升至49.8和45.3，同时保持较好的计算需求。

•在Mask R-CNN $3\times\mathsf{M S}$ 训练方案中，vGamba-L展现出卓越性能， $\mathrm{AP}_{b}$ 达51.3， $\mathrm{AP}_{m}$ 达46.1，在精度和效率上均超越Swin-S、ConvNeXt-S等更大模型。

•在Cascade Mask R-CNN三阶段 $\times$ 多尺度训练方案中，vGamba-B以50.8的 $\mathrm{AP}_{b}$ 和43.7的 $\mathrm{AP}_{m}$ 超越Swin-T和ConvNeXt-T等模型。更大规模的 vGamba -L模型与最优模型表现相当，在 $\mathrm{AP}_{b}$ 达到53.1， $\mathrm{AP}_{m}$ 达到46.3，且计算资源消耗低于部分替代方案。

这些结果表明vGamba具备竞争优势，在保持计算成本效率的同时提供高精度。

5.4补充实验

我们在AID航空数据集[36]上采用Hi-Res Grad-CAM[8]进行定性实验，该数据集固有的长程依赖特性有助于分析模型决策机制。可视化注意力同时凸显了局部特征（如跑道布局）和宏观场景（周边基础设施），证明模型能有效捕捉复杂航空场景中的长程依赖关系。这些结果验证了模型在航空场景理解中的有效性和可解释性（图2）。

5.5 消融实验

5.5.1 组件影响

我们量化了vGamba各模块的贡献度，通过逐模块移除来分析其对精度和效率的影响。

结果：融合组件的加入使精度提升至 $81.1\%$ 且保持效率不变（FLOPs与参数量相近）；Gamba Cell+MHSA组合方案将精度提高至 $79.3\%$ ，相比单独使用Gamba Cell还能略微降低FLOPs。

表6评估了从Gamba Cell中移除关键组件对分类性能的影响，基线Top-1准确率为 $177.9\%$ 。移除空间上下文感知掩码导致准确率下降 $1.1\%$ （至 $76.8\%$ ），表明其增强特征交互和精度的效果。相比之下，移除位置嵌入会导致更显著的下降至 $73.9\%$ （降幅 $4.0\%$ ），突显其在保持空间连贯性和引导特征学习中的关键作用。这些结果表明空间

表4. Cascade Mask R-CNN检测结果

在这里插入图片描述

表5. Gamba瓶颈分析

Model (components)SizeTop-1FLOPParamMHSA2242 78.9 3.68G18.94MyGambaCell2242 77.9 4.24G21.81MvGambaCell+MHSA2242 79.3 3.73G18.92MvGambaCell+MHSA+Fusion224281.1 3.77G 18.94M

自适应和位置编码共同提升性能，其中位置嵌入的影响更为显著。

在这里插入图片描述

图2. 航空影像数据集上的高分辨率类激活热力图可视化，通过热力图突出模型决策区域

表6. Gamba单元

SettingsTop-1Removing the spatial context-aware mask76.8Removing the positional embeddings73.9

6.结论

vGamba通过将状态空间模型与注意力机制相结合，为视觉识别任务中的长程依赖建模提供了一种高效混合方法。该模型采用Gamba瓶颈块结构，整合了Gamba单元、多头自注意力机制(MHSA)和门控融合模块，以增强特征表征能力并保持计算效率。大量实验表明，vGamba在分类、检测和分割任务中均表现出优越性能，能有效捕捉全局上下文和长程依赖关系，其表现超越现有模型。本研究凸显了SSM-注意力混合模型在推动计算机视觉应用方面的潜力。

6.1局限性

尽管取得显著成果，本研究仍存在若干局限。首先，虽然vGamba能有效建模长程依赖，但对超参数选择（尤其是注意力组件与状态空间组件的融合参数）仍较为敏感。针对不同…

视觉任务可能需要额外实验，并可能导致性能波动。

其次，虽然2D-MHSA的集成增强了全局上下文建模能力，但相比传统卷积方法会引入额外计算开销，这对实时应用或大规模数据集尤为明显。尽管vGamba在基准任务中优于现有模型，但它在极端精密领域（如医学影像）等高度复杂或特定场景中的性能仍有待验证。未来工作需解决这些挑战，包括优化计算效率及扩展模型处理更复杂场景的能力。