如何提升grounding dino视觉大模型在自有数据集上表现?

1. 数据增强+adapter微调

关键词

Decoder中加adapter, 冻结编码器,仅微调decoder中adapter和box head,保留跨模态理解,适配下游任务,逐层调整跨模态交互过程,减少资源消耗,防止过拟合,不影响其他类检测性能,初始学习率设为预训练的1/10,混合自有数据和公开数据,混合标注数据和伪标签数据

adapter微调

根据实验和实践经验,推荐在Decoder的每一层添加Adapter层,并仅微调这些Adapter层以及Box Head部分。这种设计能够有效保留模型原有的跨模态理解能力,同时针对特定任务进行适配
具体分析:
ⅰ. Decoder层的适配性:
Decoder负责将文本和视觉特征融合并生成检测结果,因此在每一层Decoder中插入Adapter(小型可训练模块),可以逐层调整跨模态交互过程,避免直接修改原始模型参数导致通用能力退化。
ⅱ. 仅微调Adapter和Box Head:
冻结模型的主干网络(如Swin Transformer),仅训练Adapter层和最终的检测头(Box Head),既能减少计算资源消耗,又能防止过拟合,尤其是在小规模数据集上。
ⅲ. 保留通用检测能力:
实验表明,直接在Decoder层添加Adapter的方法,可以在不显著影响其他类别检测性能的前

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

个体精进博主

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值