
多模态
文章平均质量分 80
just do it now
to do or not to do --> just do it
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
X-VLM多模态模型解读
现有的多模态预训练模型大致分为两类:1)依赖目标检测器提取基于物体(例如:车、人、树、背包)的特征来表示图片,这种方法可以学习到物体级别的视觉和语言对齐,如图1中(a)所示。这些方法要么直接利用预先训练的目标检测器,要么将目标检测过程合并到多模态预训练中;2)用 ResNet 或者 Vision Transformer 编码整张图片,只学习图片和文本之间的对齐,如图1(b)所示。这两种方法都存在一定的问题。首先,基于目标检测的方法会识别图片中所有可能的物体,其中不乏一些与配对文本无关的。此外,这种方法所提取原创 2022-06-22 11:38:22 · 1305 阅读 · 0 评论 -
多模态系列-3
背景在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。多模态预训练模型能够通过大规模数据上的预训练学到不同模态之间的语义对应关系。在图像-文本中,我们期望模型能够学会将文本中的“狗”和图片中“狗”的样子联系起来。在视频-文本中,我们期望模型能够将文本中的物体/动作与视频中的.原创 2021-11-18 11:13:10 · 1836 阅读 · 0 评论 -
多模态系列-2
这几个模型不讲“模德”,我劝它们耗子尾汁_夕小瑶的卖萌屋-CSDN博客原创 2021-11-03 20:13:13 · 159 阅读 · 0 评论 -
ViT 及 ViT和ResNet原理是否一样
链接:https://arxiv.org/abs/2010.11929这个论文看下来,有这么几个重点需要去掌握: 将整张图片转化为多个patches,作为 TRM 的序列输入 输入的时候需要加入位置编码,三种位置编码:一维,二维,相对位置编码,这三种效果没有太大区别; TRM可以接受CNN的输出作为输入,作为一种TRM的混合结构,区别于VIT这种无卷积结构 可能是由于缺乏inductive biases,数据集上直接训练的VIT效果一般,需要先在大数据...原创 2021-10-22 16:49:56 · 2438 阅读 · 0 评论 -
多模态系列-1
CLIP 论文:Learning Transferable Visual Models From Natural Language Supervision 地址:https://arxiv.org/pdf/2103.00020.pdf 代码:https://github.com/openai/CLIP 首先是CLIP,直接看模型吧,分为三步:Contrastive Pretraning,Create dataset classifier from label text和u原创 2021-10-19 20:10:31 · 1113 阅读 · 0 评论 -
多模态预训练模型-基于BERT
转载自 |NewBeeNLP 公众号专栏作者@上杉翔二悠闲会·信息检索BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让。前几天我们刚分享了复旦邱锡鹏老师的报告,今天就来详细整理一些代表性工作。下图是VL-BERT论文中的比较图,就按这个表格的分类(Architecture)整理这几篇论文吧。首先是 BERT 的基础公式,不做赘述。所有的论文都是基于BERT做改装或者暴力组合的,如果按Architecture可以分为「one sin...原创 2021-03-11 14:52:47 · 1777 阅读 · 0 评论