1. 数据增强+adapter微调
关键词
Decoder中加adapter, 冻结编码器,仅微调decoder中adapter和box head,保留跨模态理解,适配下游任务,逐层调整跨模态交互过程,减少资源消耗,防止过拟合,不影响其他类检测性能,初始学习率设为预训练的1/10,混合自有数据和公开数据,混合标注数据和伪标签数据
adapter微调
根据实验和实践经验,推荐在Decoder的每一层添加Adapter层,并仅微调这些Adapter层以及Box Head部分。这种设计能够有效保留模型原有的跨模态理解能力,同时针对特定任务进行适配。
具体分析:
ⅰ. Decoder层的适配性:
Decoder负责将文本和视觉特征融合并生成检测结果,因此在每一层Decoder中插入Adapter(小型可训练模块),可以逐层调整跨模态交互过程,避免直接修改原始模型参数导致通用能力退化。
ⅱ. 仅微调Adapter和Box Head:
冻结模型的主干网络(如Swin Transformer),仅训练Adapter层和最终的检测头(Box Head),既能减少计算资源消耗,又能防止过拟合,尤其是在小规模数据集上。
ⅲ. 保留通用检测能力:
实验表明,直接在Decoder层添加Adapter的方法,可以在不显著影响其他类别检测性能的前