- 博客(11)
- 收藏
- 关注
原创 VISA: Reasoning Video Object Segmentation via Large Language Models
现有的视频对象分割(VOS)依赖于显式查询,诸如预定义的类别、某些帧的掩码或描述直观特征的显式短语。推理视频对象分割(ReasonVOS)旨在生成一系列分段掩码,以响应隐式文本查询,这些查询需要基于世界知识和视频上下文的复杂推理能力。1.引入新的任务ReasonVOS(Reasoning Video Object Segmentation)是一种基于视频内容和世界知识的推理、归纳和推理能力的视频对象分割和跟踪技术。
2025-03-20 16:45:03
425
原创 Find First, Track Next: Decoupling Identification and Propagationin Referring Video Object Segmenta
如上图所示,左侧是现有方法,右侧是文章方法。现有的R-VOS方法主要遵循entangled fusion(模态紧密融合)策略,其中视觉和文本特征在时空框架内联合处理。模型缺乏明确的参考框架来将语言提示与正确的对象相关联,因此目标识别不明确,特别是在具有多个相似对象的场景中。其次,它不能强制跨帧执行一致的对象分割,从而导致传播错误,特别是在涉及遮挡、快速运动或外观变化的挑战性场景中。目标识别:确定视频中由语言提示指定的目标对象,并选择一个关键帧作为参考。时间传播。
2025-03-20 09:42:30
882
原创 Motion Expressions Guided Video Segmentation viaEffective Motion Information Mining
基于语言描述的视频分割任务近年来受到广泛关注。其中,“基于运动表达的视频分割”是一种多模态任务,旨在根据描述物体运动的语言表达来分割视频中的对象。提出一种有效的方法,通过挖掘视频中物体的运动信息,准确地完成基于运动表达的视频分割任务。本文提出了一种有效的运动信息挖掘框架用于运动表达式引导的视频分割,包括层次运动聚合和框级位置编码,层次运动聚合模块用于聚合短期和长期帧的时间特征,框级位置编码将对象的空间变化嵌入到对象嵌入中。
2025-03-10 16:22:36
795
原创 ReferDINO: Referring Video Object Segmentation with Visual GroundingFoundations
模型缺乏时间理解和逐像素分割能力,在ReferDINO中提出了三个关键创新。时间理解是指模型能够捕捉视频中跨帧的动态变化,包括对象的运动轨迹、动作描述以及帧间的一致性。如果模型缺乏时间理解能力,可能会导致无法关联多帧中的动态变化;在某些帧中丢失目标对象;无法利用相邻帧的信息来弥补当前帧中的模糊或噪声问题。像素级分割能力是指模型能够在像素级别上精确生成目标对象的掩码。如果模型缺乏这种能力,可能会导致分割结果可能会包含围栏或其他背景区域,导致掩码不准确;无法准确捕捉对象的轮廓和细节;
2025-02-18 16:34:01
856
原创 Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation
RVOS目标是识别和分割视频中与给定文本描述相对应的对象。RVOS具有挑战性,因为它需要在每帧内的像素级别上识别与文本对应的对象,同时还需要利用其他帧的信息来准确定位目标。因此,RVOS模型需要整合每帧中不同模式的理解以及多帧之间的关系。跨模态交互与像素级理解相结合,促进不同模态之间更好的对齐。然而,它们没有考虑帧间的时间关系。帧级和视频级解码器都只关注全局上下文,忽略了相邻帧之间的关系,限制了捕捉短期动作的能力。
2025-02-18 10:25:31
556
原创 Decoupling Static and Hierarchical Motion Perception forReferring Video Segmentation
以前的作品将一个句子作为一个整体,直接在视频层面进行识别,将静态图像层面的线索与时间运动层面的线索混合在一起。然而,图像级特征不能很好地理解句子中的运动线索,静态线索对时间感知并不重要。1. 提出将参考视频分割解耦为静态感知和运动感知。静态感知侧重于基于静态线索在图像层面上为候选物体建立基础,而运动感知则旨在利用运动线索在时间层面上理解时间背景并识别目标物体。2.提出了一种有效处理时间运动的分层运动感知,能够捕获跨越各种帧间隔的运动模式。
2025-01-17 13:47:51
879
原创 Temporal Context Enhanced Referring Video Object Segmentation
通过分析前人研究的框架,我们发现时间上下文聚合只发生在使用VSwin Transformer等时空主干进行特征提取时,以及后期处理阶段。然而,编码器和解码器阶段独立处理每个帧。1.设计了一个帧标记融合(FTF)模块作为编码器,利用记忆标记聚合视频片段中帧之间的特征。内存标记首先独立提取每一帧的信息,然后用其他帧的信息丰富整个编码。2.在解码阶段,我们提出了一个实例查询转换器(IQT)模块来直接聚合不同帧中对同一对象的查询。这克服了在当前帧中,由于遮挡或运动模糊视觉信息不足引起的问题。
2025-01-13 16:17:58
949
原创 LoSh: Long-Short Text Joint Prediction Network for Referring Video ObjectSegmentation
这篇论文研究了指代视频对象分割(RVOS)任务,该任务旨在根据给定的文本表达在视频片段中分割目标实例。由于文本表达通常包含对实例外观、动作和与其他对象关系的复杂描述,RVOS模型难以对应地捕捉这些属性,导致目标实例的掩码预测不完整或不正确。论文通过从原始长文本表达中提取仅保留目标实例外观相关信息的短文本表达,使模型能够集中注意力于实例的外观。通过使用长短文本表达进行联合预测,并引入长短预测交集损失来对齐联合预测,同时引入前向-后向视觉一致性损失,利用光流在标注帧及其时间邻居之间扭曲视觉特征以保持一致性。
2024-12-19 10:24:17
1136
原创 End-to-End Referring Video Object Segmentation with Multimodal Transformers(MTTR)
论文提出了一种简单的基于transformer的RVOS方法,框架称为Multimodal Tracking Transformer(MTTR),将RVOS任务建模为序列预测问题。MTTR基于视频和文本可以通过单个多模态Transformer模型有效地一起处理。即给定文本查询和视频帧序列,该模型在确定引用实例之前输出视频中所有对象实例的预测序列。具有相同颜色和形状的预测属于相同的序列,并且在不同的帧中关注相同的对象实例,不同帧的实例预测顺序是相同的。
2024-12-13 13:59:05
805
原创 SOC: Semantic-Assisted Object Cluster forReferring Video Object Segmentation
机器能够理解和处理图像和文本之间的关联,方法有对比学习、自回归、注意力机制等静态图像中定位由文本描述引用的相应对象。对于文本描述的对象需要在动态视频中进行分割。二、简介这篇论文研究了指代视频对象分割(RVOS)任务,通过增强视频级别的视觉-语言对齐来提升性能。现有的方法将RVOS任务建模为序列预测问题,并对每一帧分别进行多模态交互和分割,但缺乏全局视角导致难以有效利用帧间关系和理解对象的时序变化描述。
2024-12-09 10:08:54
925
原创 Language as Queries for Referring Video Object Segmentation(语言作为查询的参考视频目标分割)
是一种新兴的跨模态分割任务,其目的是在所有视频帧中分割语言表达式所引用的目标对象。在输入层将来自不同源的数据或特征进行合并,然后一起输入到神经网络中。视觉特征与文本特征以互注意力的形式进行多尺度,细粒度交互,可以获得更好的分割效果。:指的是一种端到端的处理方式,即从输入到输出的整个过程在一个系统中完成,而不需要中间的人工干预或多个独立步骤的组合。这种方式通常用于机器学习和深度学习模型中,通过直接优化整个系统的性能来简化流程并提高效率。
2024-12-02 17:37:34
1123
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人