SAM无法分割一切？SAM-Adapter：首次让SAM在下游任务适应调优！

最新推荐文章于 2024-12-02 17:30:00 发布

转载最新推荐文章于 2024-12-02 17:30:00 发布 · 2.7k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247573283&idx=3&sn=869149edaa41ee4e3163cb1eeb3a1590&chksm=f9a0adacced724ba379adfd98481283d0d1aa5f695aea0a3bb73f0708733a639bf505c6c33c2&scene=126&sessionid=0

文章标签：

#计算机视觉 #人工智能 #深度学习 #机器学习 #神经网络

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【图像分割和跟踪】微信技术交流群

近日，由魔芯科技、浙江大学、湖州师范学院、新加坡科技设计大学(SUTD)、北京航空航天大学等多单位联合发表学术论文，发现了SAM这一通用大模型在部分下游任务上的性能表现不佳，并首次提出了将任务特定知识和大模型SAM学到的通用知识和在下游任务中结合，进行适应调优（而非重新训练）的方法。研究提出了一个轻量的adapter框架将这些任务相关的知识输入进SAM中，以实现SAM在下游任务的针对性应用。该论文的代码已经在GitHub上开源。

主页：https://tianrun-chen.github.io/SAM-Adaptor/

代码（已开源）：https://github.com/tianrun-chen/SAM-Adaptor-PyTorch

论文：https://arxiv.org/abs/2304.09148

这项研究成果开辟了利用大型预训练图像模型在不同领域和工业应用中进行各种下游分割任务研究的新时代。它为研究人员和从业者提供了有价值的见解，展示了如何利用内部知识和外部控制信号来适应预训练模型，以在具有挑战性的任务中实现最先进的性能。该研究成果还为医学图像处理、自然科学、农牧业、遥感等领域的应用提供了新思路。

人工智能研究已经见证了一个由大规模海量数据上训练的模型所带来的范式上的转变。这些模型，或称为基础模型，如BERT、DALL-E和GPT-3，已经在许多语言或视觉任务中显示出有优秀的结果。

在这些基础模型中，Segment Anything Model（SAM）作为一个在大型视觉语料库上训练的通用图像分割模型取得了显著的突破。事实证明，SAM在不同的场景下具有成功的分割能力，这使得它在图像分割和计算机视觉的相关领域迈出了突破性的一步。

然而，由于计算机视觉包含了广泛的问题，SAM的不完整性是显而易见的，这与其他基础模型类似，因为训练数据不能包含整个语料库，工作场景也会有变化。在本研究中，作者首先在一些具有挑战性的低层次结构分割任务中测试SAM，包括伪装物体检测（隐蔽场景）和阴影检测，作者发现在一般图像上训练的SAM模型在这些情况下不能完美地 "分割任何东西"，包括影子检测、伪装物体检测等。

因此，一个关键的研究问题是：如何高效利用大型模型从大规模语料库中获得的能力，并利用它们使下游的任务受益？

在这项工作中，来自魔芯科技、浙江大学、新加坡科技设计大学等单位的研究者提出了SAM-adapter，它是一个针对上述研究问题的优秀解决方案。这项开创性的工作首次尝试将大型预训练的图像分割一切模型SAM适应于特定的下游任务，并提高其性能。正如其名，SAM-adapter是一种非常简单而有效的适应技术，可以同时利用来自大模型的内部知识和针对下游任务设定的外部控制信号。在该方法中，信息是通过视觉提示传达给网络的，这已被证明了在用最少的额外可训练参数，能高效地将一个冻结的大基础模型适应到许多下游任务工作。

图：SAM-Adapter (Ours) 在伪装物体检测上的性能测试

这项工作率先证明了大规模海量数据训练给SAM带来的特殊能力可以被应用到其他数据领域。SAM-Adapter可以被用作这样的迁移。作者在影子检测、伪装物体检测等任务的数据上实现了超过已有算法的高性能(SOTA)表现。未来，我们相信SAM-Adapter作为一个通用框架，可以被应用于更多不同领域的各种下游分割任务中，包括在医学影像诊断、农业、工业检测等不同领域。

点击进入—>【图像分割】微信技术交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

图像分割交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-图像分割或者目标跟踪 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看