【AI】VIT Transformer论文学习笔记

最新推荐文章于 2025-03-13 15:45:44 发布

原创

最新推荐文章于 2025-03-13 15:45:44 发布 · 1.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #transformer #学习

论文：Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020

在这里插入图片描述

1.文章背景

计算机视觉当前最热门的两大基础模型就是Transformer和CNN了。

Transformer的应用

Transformer提出后在NLP领域中取得了极好的效果，其全Attention的结构，不仅增强了特征提取能力，还保持了并行计算的特点，可以又快又好的完成NLP领域内几乎所有任务，极大地推动自然语言处理的发展。
但在其在计算机视觉领域的应用还非常有限。在此之前只有目标检测(Object detection)中的DETR大规模使用了Transformer，其他领域很少，而纯Transformer结构的网络则是没有。
VIT这篇文章就是将Transformer模型应用在了CV领域，它将图像处理成Transformer模型可以应用的形式，沿用NLP领域中Transformer的方法，直接验证了其精度可以和ResNet不相上下，展示了在计算机视觉中使用纯Transformer结构的可能，为Transformer在CV领域的应用打开了大门。