Visual Prompt Tuning (VPT)

Wanderer X

已于 2022-11-16 11:33:35 修改

阅读量3.5k

点赞数 15

CC 4.0 BY-SA版权

分类专栏： Readpaper : ) 文章标签：深度学习人工智能自然语言处理

于 2022-11-16 11:31:25 首次发布

本文链接：https://blog.csdn.net/wandererXX/article/details/127882053

Readpaper : ) 专栏收录该内容

4 篇文章

订阅专栏

本文提出了一种新的方法，称为VPT，用于微调大规模视觉Transformer模型。VPT在输入空间中引入少量可训练参数，而不是修改模型主干，从而在保持模型性能的同时降低了存储成本。与传统的全微调相比，VPT在某些情况下甚至表现更好，且只需极小比例的参数。研究还对比了适配器和BitFit等方法，表明VPT在视觉任务上的适应性更优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

只在输入空间中引入少量(小于1%的模型参数)可训练参数，同时保持模型主干不变。

在许多情况下，VPT甚至超越了模型容量和训练数据规模的全面微调，同时降低了每个任务的存储成本。

Introduction

常用技术：full fine-tuning，这种策略要求为每一个任务存储和部署一个独立的骨干参数副本。这是一个昂贵且通常不可行的命题，特别是对于现代的基于Transformer的体系结构

(a) 三种传统微调方法：Full fine-tuning, Head-oriented, and Backbone-oriented approaches

(b) VPT: 我们不是修改或微调预先训练的Transformer本身，而是修改对Transformer的输入

我们的方法只在输入空间中引入少量任务特定的可学习参数，而在下游训练时冻结整个预训练的Transformer骨干。在实践中，这些额外的参数只是预先添加到每个Transformer层的输入序列中，并在微调期间与线性头一起学习。

Related work

Adapters [64] and BitFit [5].

适配器[34]在每个Transformer层中插入额外的轻量级模块。一个适配器模块通常由一个线性向下投影、一个非线性激活函数和一个线性向上投影以及一个剩余连接组成[63,64]。[8]没有插入新的模块，而是在对ConvNets进行微调时，提出更新偏置项并冻结其余的骨干参数。BitFit[3]将该技术应用于变压器，并验证了其在LM调谐上的有效性。我们的研究表明，相对于前面提到的NLP中的两种完善的方法，VPT在适应Transformer模型的视觉任务方面提供了更好的性能。

prompt

treat the prompts as task-specific continuous vectors and directly optimize them via gradients during fine-tuning（最近的研究提出将提示符作为任务特定的连续向量，并在微调过程中通过梯度直接对其进行优化，即Prompt Tuning）

与完全微调相比，它获得了类似的性能，但使用了1000×less参数存储。

方法

Fig. 2. Overview of our proposed Visual-Prompt Tuning. We explore two variants: (a) prepend a set of learnable parameters to each Transformer encoder layer’s input (VPT-deep); (b) only insert the prompt parameters to the first layer’s input (VPTshallow). During training on downstream tasks, only the parameters of prompts and linear head are updated while the whole Transformer encoder is frozen.