
Multi-Modal Large Model
文章平均质量分 97
Fulin_Gao
主要研究方向包括开放集识别(Open-Set Recognition)、开放世界识别(Open-World Recognition)、增量学习(Incremental Learning)、新类别发现(Novel Category Discovery)、少样本学习(Few-Shot Learning)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【多模态大模型】LLaMA in arXiv 2023
LLaMA:该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。原创 2024-08-15 09:39:28 · 1413 阅读 · 0 评论 -
【多模态大模型】FlashAttention in NeurIPS 2022
FlashAttention: 该方法提出将Q、K、V拆分为若干小块,使执行注意力时不需要频繁进行读写操作,而是每个小块只进行一次读写,从而提升注意力的执行速度。原创 2024-08-10 13:05:16 · 1220 阅读 · 0 评论 -
【多模态大模型】 BLIP-2 in ICML 2023
BLIP-2:该方法分别使用冻结的图像编码器(ViT-L/14、 ViT-g/14)和大语言模型(OPT、FlanT5)进行图像特征提取和文本特征提取与生成;提出Q-Former连接图像编码器和大语言模型;提出两阶段预训练策略分别提升模型特征学习和视觉到语言的生成学习能力。原创 2024-08-03 17:34:49 · 1319 阅读 · 0 评论 -
【多模态大模型】 BLIP in ICML 2022
BLIP:该方法分别使用ViT和BERT进行图像和文本特征提取;提出使用image-text contrastive learning (ITC)损失、image-text matching (ITM)损失、Language Modeling (LM)损失进行模型优化;提出Captioning and Filtering (CapFilt)生成并过滤从网络上获取的图像-文本对。原创 2024-07-30 23:07:19 · 1304 阅读 · 0 评论 -
【多模态大模型】 ALBEF in NeurIPS 2021
ALBEF:该方法使用ViT进行图像特征提取,提出将BERT分两部分,一部分进行文本特征提取,另一部分进行图像-文本交互的特征提取;提出使用image-text contrastive learning损失、masked language modeling损失、image-text matching损失进行模型优化;提出Momentum Distillation策略以一个通过exponential moving average的网络生成软伪标签提供另一个视角的优化方向。原创 2024-07-28 19:02:19 · 2009 阅读 · 0 评论