VIT (Vision Transformer)

  • 不做改动,直接将Transformer应用于视觉领域。
  • 在小规模数据上可能略输CNN,但是在大规模数据上同等或者更优。
  1. 首先将图片划分成一个一个patch
  2. 将每个patch展平(展开成一维),然后通过线性层,映射到相同的维度。
  3. 加上可学习的位置向量,丢入Transformer Encoder层(类似Bert)
  4. 在序列最前面加上一个输入,用来提取全部序列的特征,并且在分类时候作为分类输入。

在这里插入图片描述

patch_size越小,计算复杂度越高,但是效果通常更好。

在这里插入图片描述
在实现时,一般直接使用卷积操作,而不是真的拆开然后展平。

在这里插入图片描述
通过实验也发现,一维位置编码也能学到二维位置信息。

混合模型:
首先由CNN提取特征,然后将CNN的每一层输入特征当成特征输入VIT。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

volcanical

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值