

MobileVIT:LIGHT-WEIGHT, GENERAL-PURPOSE,AND MOBILE-FRIENDLY VISION TRANSFOR(轻便、通用、移动友好的视觉转换器)
基于自我注意的模型,尤其是视觉转换器(ViTs;图1a;Dosovitskiy等人,2021)是卷积神经网络(CNNs)的替代方案,用于学习视觉表示。简言之,ViT将图像划分为一系列不重叠的小块,然后在变换器中使用多头自注意来学习小块间的表示(Vaswani等人,(2017年版)。一般的趋势是增加ViT网络中的参数的数量以提高性能(例如,Touvron等,2021 a;格雷厄姆等人,2021;Wu等人,2021年)的报告。然而,这些性能改进是以模型大小(网络参数)和延迟为代价的。
