IEEE TGRS 2023:基于多模态融合Transformer的遥感图像分类方法
题目
Multimodal Fusion Transformer for Remote Sensing Image Classification
作者
Swalpa Kumar Roy , Student Member, IEEE, Ankur Deria , Danfeng Hong , Senior Member, IEEE,
Behnood Rasti , Senior Member, IEEE, Antonio Plaza , Fellow, IEEE, and Jocelyn Chanussot ,Fellow, IEEE
关键词
Convolutional neural networks (CNNs), multihead cross-patch attention (mCrossPA), remote sensing (RS), vision transformer (ViT).
研究动机
在原始的ViT模型中,如果我们将HSI作为输入,由于HSI巨大的光谱波段数量,可能会导致过拟合;并且对于其他模态的融合,如果采用拼接的方式去实现信息互补,会加剧这种问题。
模型
与卷积神经网络相比,ViT在图像分类任务中具有良好的性能。因此,许多研究人员尝试将ViT应用到高光谱图像分类任务中。为了获得满意的性能,接近于CNN,变换需要更少的参数。VITS和其他类似的变换使用外部分类(CLS)标记,该标记是随机初始化的,通常不能很好地推广,而其他多模