ICCV 2025|美团&北大提出DisTime:让大模型理解时间!仅需超轻量时间编解码器

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

注:*表示共同第一作者

论文:https://arxiv.org/abs/2505.24329

代码:github.com/josephzpng/DisTime

单位:美团&北京大学

贡献

  1. 提出了 DisTime 框架,用于连续时间建模和边界模糊性处理。 DisTime 引入了一个可学习的token,并通过基于分布的时间解码器将其转化为时间概率分布。这种方法有效解决了事件边界的不确定性,并实现了连续的时间建模,从而提高 Video-LLMs 的时间定位精度 。

  2. 提出了一种自动化标注范式并创建了 InternVid-TG 大规模数据集。 该范式结合了大型语言模型(LLMs)的图像描述能力和专用时间定位模型的精细定位能力。通过这种方法,我们构建了 InternVid-TG 数据集,其中包含 17.9 万个视频和 125 万个时间定位事件,其规模是 ActivityNet-Caption 数据集的 55 倍,极大地缓解了时间感知数据集的稀缺问题 。

  3. 在多项时间敏感任务中实现了最先进的性能。 实验证明,DisTime 在三项时间敏感任务的基准测试中显著提升了 Video-LLMs 的精细定位能力。例如,在 Charades-STA 数据集上,该模型在零样本设置下甚至超越了大多数现有的 Video-LLMs 和专有模型。


问题引入

图1. 视频大模型对时间表征的不同形式

尽管视频理解领域取得了显著进展,但视频大语言模型(Video-LLMs)在精确的时间定位方面仍面临严峻挑战。这主要归因于两个关键问题:

  1. 离散的时间表示方式: 通常存在一些局限,例如将时间与基于文本的数值混淆、添加一系列专用的时间标记token。如图1a所示,GroundingGPT [24]、VTimeLLM [15] 和 TimeMarker [4] 等模型在文本模态中,单独或结合标记,使用数字来表达时间。然而,这些方法强制时间和数字共享相同的决策边界,这使得分类过程变得复杂,为了解决模态混淆问题,Momentor [34] 和 VTGLLM [13] 等一些方法引入了专门用于时间表达的额外标记token,如图 1b 所示。然而,这种方法严重依赖于这些新标记的分类以及训练过程中时间数据的平衡分布。由于数据集中长尾分布的存在,一些标记可能得不到充分的训练。这两种方法都存在一个共同的缺点,即使用标记来表达时间本质上是离散的,导致时间表示的精度不足(例如,无法表达小数),并且缺乏对相邻数值之间关系的明确建模。第三种方法以 InternVideo2.5 [40] 为例,如图 1c 所示,它创建了可训练的任务标记和一个专门的时间感知头,以协助时间点解码。这些模块(例如 CGDETR [32])通常是为时间定位而设计的,包含大量参数并且需要重新输入视觉信息。

  2. 时序敏感数据集的匮乏: 针对时间敏感任务(如精确的时间定位)而专门标注的视频数据集数量和规模都非常有限。这与文本或图像领域中海量的数据集形成了鲜明对比。即便存在一些时间相关的视频数据集(VTimeLLM [15], InternVid-MR [11], and Momentor [34]),它们往往在时间标注的精细度上不够,无法提供足够细粒度的事件起止时间信息,难以满足 Video-LLMs 进行精确时间定位的需求。


解决方法

  1. 优化时间表达:为了改善大型语言模型(LLM)中时间位置的表示,我们提出了 DisTime,一种使用额外可学习标记token来指示事件时间跨度的方法。这个标记为时间戳创建了一个连续的嵌入空间,从而避免了与文本中数字值的混淆。如图 1d 所示,DisTime 利用基于分布的时间解码器将时间标记转换为起始和结束时间戳。受到 DFL [22] 的启发(该方法承认边界检测固有的模糊性),时间边界也面临类似的挑战,使得直接回归到绝对时间值变得困难。将时间标记解码成一个分布,在事件边界不明确时提供了灵活性,从而降低了模型预测的复杂性。我们的方法首先将时间标记转换为概率分布,然后积分该分布以生成具体值。与图 1c 中的方法不同,我们的解码器使用的参数量极少(几乎可以忽略不计),并且无需重新输入原始/编码图像。

  2. 无监督标注时序敏感数据集的流程:为了扩充具备时间感知能力的视频数据,我们提出了一种标注范式,旨在克服事件边界的时间粒度限制。我们的方法利用Video-LLMs的图像描述能力进行事件提取,并运用专用模型的细粒度定位能力进行事件边界检测。借鉴标注良好数据的专业知识,这些伪标签摆脱了镜头边界的限制,使其更适用于时间定位任务。我们采用了三个专用模型:UniMD [48] 、Mr.Blip [31] 、 TFVTG [51] ,并设计了一种评分策略来评估定位结果,选择得分最高的模型输出作为每个事件的集成结果。


实现细节:DisTime模型

图2. 我们模型的总体结构

总体结构和流程

DisTime 旨在通过构建一个连续且基于分布的时间表示来增强 Video-LLMs 的时间理解能力,以此克服传统离散时间表示和边界模糊性的问题。总体模型结构如图2所示,包含我们提出的可学习的时间标记<TIME_STAMP>基于分布的时间解码器(Distribution-based Time Decoder)基于分布的时间编码器(Distribution-based Time Encoder)、大语言模型LLM和视觉编码器。

工作流程如下

  1. 首先,系统会从视频中均匀采样一定数量的帧。然后,视觉编码器对这些视频帧进行编码,而投影器则将编码后的视觉信息映射到语言空间,从而得到一系列视觉标记(Visual Tokens)

  2. 接下来,系统通过时间编码器处理每个视频帧对应的时间戳,生成一系列时间表示  .

  3. 随后,这些时间标记  和视觉标记  会被交错排列,并与用户指令文本经文本编码器编码后的文本标记  一起输入到LLM中。

  4. LLM的自回归生成过程不仅包含标准的文本标记,也包括这个我们提出的专用时间标记<TIME_STAMP>。当LLM输出 <TIME_STAMP> 时,系统会从LLM最后一层提取对应的隐藏状态 embedding,并将其传递给时间解码器以获取连续的时间戳 —— 事件起始时间( )和结束时间( )。

  5. 时间上下文刷新与显式时间引用 : 这些解码得到的时间戳随后会通过时间编码器进行再处理,以刷新LLM的时间上下文,为后续的自回归生成步骤提供更准确的参照。同时,原始的 <TIME_STAMP> 标记会被重新编码后的时间标记所取代,从而在输出中建立显式的时间引用,这些引用就像是视频时间线上的指针。

  6. 最终输出: 最后,<TIME_STAMP> 标记会被替换成相应的解码时间戳 ( ),并与LLM生成的文本标记连接起来,形成LLM的完整输出。

总体思路:将时间建模为概率分布

我们提出的 DisTime是一种概率分布的时间建模范式。我们的框架通过两项关键创新实现了连续的时间表示

  1. 单标记约束(Single-Token Constraint):这项创新利用轻量级编码器 (Time encoder) 和解码器 (Time decoder),将连续时间信息封装在一个专用标记中。这使得精确的时间定位成为可能,同时计算开销极小。

  2. 分布感知解码(Distribution-Aware Decoding):这项创新通过概率时间戳生成来解决边界模糊性。在这种方法中,最终的时间坐标是从多个预测的加权组合中得出的,提供了一种更鲁棒的时间建模方法。

图3. 时间编解码器的结构图

具体地,时间建模主要包含以下三个模块:

  1. 专用时间token:该专用时间标记被称为基于分布的时间标记(Distribution-based time token)(表示为 <TIME_STAMP>),它在词汇表中与数字文本标记截然不同。当LLM生成 <TIME_STAMP> 时,一个带有 softmax 函数的轻量级解码器会将其转换为一个潜在概率分布。这个潜在嵌入的每个维度都对应着归一化时间轴上的一个锚点。这些概率分布使得连续值表示成为可能。

  2. 时间解码器:时间解码器用于将 <TIME_STAMP> 解码成连续的时间戳 ( ),如图 3 所示。

  3. 时间编码器:如图 3 所示,时间编码器的作用是时间解码器的逆过程。它的任务是将连续的时间戳 ( ) ∈ [0,1] 转换回一个时间标记 τ。首先,为了模拟标注中的模糊性,每个时间戳都被投影到一个标准高斯分布中: ,其中 δ 控制着分布的扩散程度。当存在边界不确定性时,我们通常设置 δ=1。

    编码过程存在于这两个阶段:

    1. 输入视觉序列组合阶段:在这个阶段,我们会进行时间标记注入。此时,我们将起始时间   和结束时间   设置为相等,以表示瞬时的时间位置。

    2. LLM 自回归处理阶段:在这个阶段,我们利用时间解码器解码得到的时间戳,并将 <TIME_STAMP> 替换为编码后的标记 τ,以实现更精细的时间表示。

图4. 文本token和时间token的自回归过程

因此,带有专用时间token的自回归流程和文本token自回归流程几乎保持一致,如图4所示。这两种token类型都进行显式解码:文本token映射到词汇表索引,而时间token则解码为连续的时间戳( )。然后,解码结果通过领域特定的编码转换为embeddings,以供后续迭代使用:文本token使用嵌入层进行编码,时间token则使用时间编码器进行编码。


实现细节:构建InternVid-TG数据集

图5. InternVid-TG数据集的构建过程

表1. InternVid-TG数据量情况

尽管一些自动化标注方法 [11, 15, 34] 试图扩展监督规模,但它们仍受限于镜头边界或粗略的固定时间间隔。为了扩充具备时间感知能力的监督数据并克服这些限制,我们提出了一个时间感知数据扩展框架。该框架协同结合了大型多模态模型的概括能力与专用时序模型的细粒度定位能力。

图 5 展示了我们提出的标注范式,它包含四个步骤:事件捕获事件边界检测评分与集成处理以及指令编写。最终,我们自动化地标注了 InternVid-FLT [38] 视频数据,将其从原始的视频-文本对齐数据转换为时间定位数据,并命名为 InternVid-Temporal-Grounding (InternVid-TG)。最终,我们在17.9 万个视频中标注了 125 万个事件,如表1所示。


实验部分

实现细节

我们提出的 DisTime 被集成到两个当前的视频大型语言模型中:InternVL2.5 [5] 和 LLaVA-OneVision [18],以提升它们在时间敏感任务上的表现。我们使用 InternVL2.5-1B、LLaVA-OneVision-7B 和 InternVL2.5-8B 作为基线模型,并在 InternVL2.5-1B 上进行了消融研究。

值得一提的是,时间解码器和编码器都非常参数高效,它们加起来仅占 InternVL2.5-1B 的 0.36%、LLaVA-OneVision-7B 的 0.34% 和 InternVL2.5-8B 的 0.84%。

评测集

这项全面的评估涵盖了三项时间敏感任务:时刻检索(Moment Retrieval, MR)密集视频描述(Dense Video Captioning, DVC) 和 时序定位视频问答(Grounded Video Question Answering, Grounded-VQA)

对于时刻检索(MR),我们使用了 CharadesSTA [9]、ANet-Caption [16] 和 QVHighlights [17] 基准数据集。

对于密集视频描述(DVC),我们在 ANet-Caption 和 YouCook2 [52] 数据集上进行评估。

对于时序定位视频问答(Grounded-VQA),我们采用了 NExT-GQA [42] 数据集。

此外,我们还使用 MVBench [21]、Video-MME [8] 和 LongVideoBench [41] 对模型在通用视频理解任务上的性能进行了评估。

消融实验

表3. 时间编解码器的不同组成的消融实验

表4. InternVid-TG的有效性比较

  1. 分布式表示的作用:表 3 展示了直接预测时间戳(标记为“Direct”)与通过分布预测获取时间戳(标记为“Dist.”)的对比。在时刻检索(MR)任务的 Charades-STA 数据集和密集视频字幕(DVC)任务的 YouCook2 数据集上,利用分布表示来建模时间显著提升了模型在所有指标上的性能。值得注意的是,YouCook2 数据集表现出显著的进步,F1 分数从 2.2% 大幅提升至 16.3%。

  2. 时间标记重编码的作用:如表 3 所示,时间标记重编码(“Re-Enc”)增强了分布表示的有效性,尤其是在 Charades-STA 数据集上时刻检索任务所需的高精度指标中,例如 R@1iou=0.7 提升了 3%。这突显了时间标记重编码对于高精度时间表达的重要性。此外,在用于密集视频字幕任务的 YouCook2 数据集中,“Re-Enc”使得 CIDEr 分数增加了 11.6%,F1 分数增加了 4.2%。

  3. InternVid-TG 的有效性:我们评估了我们提出的数据集在两个时刻检索(MR)基准:Charades-STA 和 QVHighlights 上的有效性。为了与 VTimeLLM 进行公平比较,我们使用了一个与 VTimeLLM 共享重叠视频的子集(InternVid-TG†),总计约 9 万个视频。如表 4 所示,与 VTimeLLM 和 Momentor 相比,即使 Momentor 包含比 InternVid-TG† 更多的事件,使用 InternVid-TG† 的模型在两个基准上都显示出性能提升。值得注意的是,标注噪声会降低指标,正如 Momentor 的情况所示,其模型在 Charades 上的性能有所下降。最后,利用我们完整的 InternVid-TG 数据集(从 9 万个视频扩展到 17.9 万个视频),进一步提升了性能。

主要结果

表5. 时刻检索MR的效果比较

时刻检索(Moment Retrieval):如表 5 所示,我们将我们的模型与专有方法以及其他时间敏感的视频大型语言模型(VideoLLMs)在 Charades-STA 和 ANetCaption 基准数据集的时刻检索(MR)任务上进行了比较。我们的 DisTime-InternVL 和 DisTime-LLaVAOV 模型在 R@1iou=0.3 指标上超越了所有其他模型,甚至在零样本设置下也是如此。在为 MR 任务优化的 Video-LLMs 中(即不包括 InternVL2.5 和 LLaVAOneVision),DisTime 展示出强大的时间敏感性。在 Charades-STA 数据集上,DisTime-InternVL-1B 在所有指标上都超越了其他模型,尤其是在 R@1iou=0.5 上比 TimeMarker 高出 4.4%。DisTime-InternVL-8B 模型进一步将这一差距扩大到 8.4%。在 ANet-Caption 数据集上,我们的 8B 模型在 R@1iou=0.3 和 mIoU 方面表现出色,尽管略低于专门针对 ANet-Caption 的 Mr.BLIP,但在 R@1iou=0.5 上仍保持竞争力。与基线模型 InternVL2.5 相比,DisTime 显著提升了 MR 任务的性能。在 Charades-STA 数据集上,1B 模型在 R@1iou=0.3 上的表现从 3.1% 提升到 78.1%。这验证了我们的方法在 LLM 中表达时间信息和增强其时间定位能力的卓越性。此外,将 DisTime 集成到 LLaVA-OneVision 中也显著提高了其时间敏感性,这展示了我们方法的通用性和可扩展性。

表6. 密集视频描述的效果比较

密集视频描述:如表 6 所示,在密集视频描述任务中,我们的 DisTime-InternVL 和 DisTime-LLaVAOV 模型在 YouCook2 基准上显著优于所有其他视频大型语言模型。这一改进归因于我们提出的迭代时间细化机制,该机制通过重编码来澄清输出时间标记,从而在每个后续的自回归步骤中更准确地传达前一个事件的时间信息。对于 ANet-Caption 基准,我们的方法超越了 Valley 和 Momentor,但略逊于 VTimeLLM。需要注意的是,VTimeLLM 依赖于 100 帧的输入,而我们的方法使用的输入帧数更少,其中 DisTime-InternVL 使用 16 帧,DisTime-LLaVAOV 使用 32 帧。在 ANet-Caption 数据集中捕捉细微的事件进展,可能需要更多帧提供的更丰富的视觉上下文。

表7. 时序定位VQA的效果比较

时序定位VQA: NExT-GQA 基准上接地视频问答任务的结果显示在表 7 中。这项任务不仅评估模型对问答的理解能力,还要求其具备时间定位事件的能力。在所有比较的方法中,DisTime-InternVL-1B 在大多数指标上都超越了其他方法(除了 Acc@GQA 和 IoP@0.5)。当模型规模扩展到 DisTime-InternVL-8B 时,它在所有指标上都达到了最佳性能。

表8. 通用VQA的效果比较

通用VQA:通用视频理解任务的结果如表 8 所示。在未对通用理解能力进行任何专门优化的前提下,我们的方法在各个基准测试中展现出多样化的性能提升。在 MVBench 中,DisTimeLLaVAOV-7B 比 LLaVA-OneVision 高出 2.3%,而 DisTime-InternVL-8B 则保持了稳定的性能指标。在 LongVideoBench 中,DisTime-InternVL-1B 显示出 1.1% 的提升。尽管在 VideoMME 上的性能有所下降,但与其它模型相比,DisTime-InternVL 和 DisTime-LLaVAOV 都保持了竞争力。例如,DisTime-InternVL-8B 显著超越了参数量相同的 TimeMarker,DisTime-InternVL-1B 也超越了参数量大得多的 TimeChat。总的来说,DisTime 的集成主要旨在增强时间敏感任务,同时在通用理解任务中仍保持竞争力。


本文总结

本文提出了 DisTime,这是一种轻量级范式,通过使用单个标记并结合分布预测来回归连续时间戳,从而增强视频大型语言模型中的时间表达能力。此外,我们还提出了一种自动化标注范式,它充分利用了 LLM 和专门的时间定位模型。配备 DisTime 的 Video-LLMs 通过高效的连续时间建模可扩展的数据生成,提升了其时间理解能力,为需要细粒度视频理解的应用提供了实用的解决方案。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值