论文阅读:Target localization based on cross-view matching between UAV and satellite
QATM套壳 原理可直接去看QATM CVPR2019,相当于做了一个应用
匹配由无人飞行器(UAV)拍摄的遥感图像与具有地理定位信息的卫星遥感图像,从而确定由UAV捕获的目标对象的具体地理位置。其主要挑战在于卫星和UAV获取的遥感图像在视觉内容上的显著差异,例如视角的剧烈变化、未知的方向等。许多先前的工作都集中在同源数据的图像匹配上。为了克服这两种数据模式之间的差异带来的困难,并在视觉定位中保持鲁棒性,本文提出了一种基于尺度自适应深度卷积特征的质量感知模板匹配方法,通过深入挖掘它们的共同特征。首先获取模板大小特征图和参考图像特征图。然后使用这两个获得的特征图来测量相似性。最后,生成一个表示匹配概率的热图,以确定参考图像中的最佳匹配。该方法应用于最新的基于UAV的地理定位数据集(University-1652数据集)和我们用UAV收集的真实场景校园数据。实验结果证明了该方法的有效性和优越性。
1. Introduction
在过去十年左右的时间里,遥感技术发展迅速。与此同时,遥感平台也在全面发展,如地面、无人机和卫星平台。无人机和卫星在这方面发挥着至关重要的作用,是获取遥感图像的主要工具。无人机具有机动性和灵活性、隐身、低成本、获取的信息丰富和全面的飞行覆盖等独特特点。基于无人机航拍图像的信息处理、分析和识别技术广泛应用于搜救、工业巡查、地形测绘、精准农业、生态环境监测、野生动物监测保护等方向。近年来,其相关研究也成为图像处理、计算机视觉、模式识别等领域的重要研究方向。卫星遥感图像具有丰富的视觉信息,在目标检测、定位、跟踪、监视等过程中发挥着重要作用。
大多数传统的无人机飞行导航依赖于惯性制导、GPS等提供的信息。缺乏GPS可能会导致定位不可用。GPS的精度和抗信号干扰往往无法满足现代无人机定位导航的需求。随着图像传感硬件和图像处理技术的发展,计算机视觉技术9和人工智能技术10正在逐步引入无人机的定位和导航中。越来越多的无人机配备了结合人工智能技术的图像传感器系统,提供更准确的定位和导航信息。基于图像传感器的视觉定位和导航的潜力巨大。它可以达到相当的准确度,降低无人机平台的成本,并在信号干扰不可用的情况下取代GPS,具有重要的现实意义。
目前应用于无人机视觉定位和导航的方法主要是图像配准。具体可以描述四大类:模板匹配、特征点匹配、基于深度学习的图像匹配和视觉里程表匹配。一般来说,无人机早期的视觉定位和导航工作主要是密集或直接匹配。无人机的观察作为模板在地图中进行匹配。图像匹配算法,例如绝对差和(SAD)、11平方差和(SSD)、12和标准化互相关(NCC)13用于比较两个图像或块的相似性。但它们的主要缺点是计算量大、计算时间长。
本文提出了一种基于规模自适应深度卷积特征的质量感知模板匹配方法(quality-aware template matching method based on scale-adaptive deep convolutional features.)。首先对无人机图像和卫星遥感图像的典型干扰进行图像预处理,消除外部影响,获得尽可能真实的图像信息。VGG-1626网络在University-1652数据集和真实场景数据集上训练。然后使用训练好的VGG-16网络分别提取无人机图像和卫星遥感图像的多维特征,并使用比例自适应方法选择合适的feature map。最后计算两个feature map的相似度。根据匹配的可能性获得最佳匹配结果。在大比例尺高分辨率卫星图像中可以找到无人机拍摄图像对应的区域。
本文的贡献如下:
-
提出了一种基于尺度自适应深度卷积特征提取的质量感知模板匹配方法,用于评估不同视角图像之间的相似度。通过提取规模自适应的深度卷积特征,可以处理各种尺寸的目标模板图像,简化特征提取过程。我们提出的方法在速度方面具有很大优势。
-
训练后的模型提高了对真实场景中目标物体的描述能力以及对视角变化的抵抗能力,该方法的性能不仅在公共数据集(University-1652)上得到了定量和定性的证明,而且在真实场景无人机数据上也具有一定的有效性和优越性。
-
真实场景无人机数据集非常稀缺,而且这种数据集新颖,可以更有效、更真实地反映无人机飞行中的视角状况。
2. Method
2.1 Overview
我们使用无人机捕获的目标物体图像作为模板图像(template image) T ∈ R w × h × 3 T\in R^{w\times h\times3} T∈Rw×h×3,使用卫星遥感图像作为参考图像(reference image) S ∈ R m × n × 3 S\in R^{m\times n\times3} S∈Rm×n×3。目的是在大尺度高分辨率参考图像 S S S中找到与模板图像 T T T对应的区域,如图1所示。我们使用 m m m和 n n n来表示参照图片的宽度和高度, w w w和 h h h代表模板图像的宽度和高度。为了完成这一任务,我们提出了一种基于规模自适应深度卷积特征的质量感知模板匹配方法。第2.2节描述了规模自适应深度卷积特征提取方法。考虑到匹配定位的稳定性,在2.3节中将深度网络特征提取与基于QATM的图像匹配方法相结合。
2.2. Deep convolutional feature extraction based on scale adaptation
VGG网络使用重复堆叠的小卷积核而不是大卷积核。这种方法提高了网络的深度和提取特征的能力,同时确保相同的感知领域。我们分别对模板图像和参考图像使用经过训练的VGG-16网络来提取用于图像匹配的多维特征。基于卷积神经网络(CNN)的特征提取方法如图2所示,该方法首先需要将输入图像缩放到固定大小,例如,224像素 224像素。然后通过网络中的每一层执行特征提取。
由于遥感图像中的像素数量极其庞大,而且大多数特征提取过程都是卷积运算,因此随着网络深度的增加,遥感图像处理的计算成本和时间成本也不断增加。而且,目标的规模是不连续的,缩放其输入会导致细节损失,影响匹配效果。为了解决这个问题,我们提出了一种基于规模自适应深度卷积特征提取的方法。
CNN中的不同层代表图像的各种深度特征。27我们将模板图像和参考图像直接输入到VGG网络,而无需缩放它们。然后根据模板的大小选择合适的目标层,并从目标层中提取特征图。CNN中的每个层都有一个感受野,它代表通过每个层输出的特征地图上的像素点映射到原始图像上的区域的大小。第 k k k层的感受野的宽度计算如下。
l k = l k − 1 + ( r k − 1 ) ∏ i = 1 k − 1 s i k > 1 l_{k}=l_{k-1}+(r_{k}-1)\prod_{i=1}^{k-1}s_{i}\quad k>1 lk=lk−1+(rk−1)i=1∏k−1