37、基于深度学习的视频描述与总结综述

基于深度学习的视频描述与总结综述

1. 引言

视频描述是自动创建自然语言句子以阐释给定视频内容的方法,在视频字幕、人机交互、帮助视障人士等多个领域有应用需求。对于人类而言,观看视频并描述其内容较为容易,但对计算机程序来说却是一项极具挑战性的任务。

近年来,计算机视觉和自然语言处理技术被应用于精心收集和标注的视频数据集,以描述视频中的活动。深度学习技术,如卷积神经网络(CNN)、循环神经网络(RNN)及其各种变体,在这一领域表现突出。多数相关工作先使用3D CNN网络计算视频特征,再用如GLOVE等词嵌入方法计算文本特征,然后训练RNN、双向RNN、LSTM或其变体等序列到序列模型,以在高维空间中学习表示,对视频及其描述进行分类。同时,还会报告不同阈值水平下的准确率和召回率等评估指标。不过,由于使用3D CNN,这些模型往往运行缓慢,部分研究也提出了相应的解决方法。此外,一些作者还应用了光流、时空流、联邦学习和变换器等技术,近期也有基于图的深度学习模型的相关研究。

2. 相关工作

视频描述的研究大约始于2002年,当时大多通过手工计算视觉概念(如图像分割、图像处理和轮廓检测)来提取特征,再使用预定义模板生成输出句子。这种方法存在可扩展性差的问题,因为难以对数千个视频进行手动特征提取,且与如今的基准相比,准确率极低。

随着深度学习技术的发展,尤其是编码器 - 解码器范式的出现,视频描述领域取得了快速进展。编码器用于从多模态特征中学习视频表示,解码器则根据学习到的表示生成句子。

下面介绍一些相关的研究成果:
- HowTo100M :Miech等人引入了约1.3亿个视频片段的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值