Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

时空超分模型(STVSR)目的在于提高低分辨率和低帧率视频，但是目前的方法只能推断在训练中预先定义好的中间帧(也就是说生成固定帧率视频，也就是目前的STVSR方法高帧率不用提高，低帧率会插视频训练时定义的中间帧，帧率固定，本文就不一样了，两帧之间我可以插多个帧)，并且没有完全利用相邻帧之间的信息。本文提出TMNet(时间调制网络)进行中间帧插值，并重建高分辨率帧。TMNet可分为两部分：(1)TMB(时间调制块)，实现可控的插值。(2)LFC(局部时间特征比较模块)和双向变形的convLSTM模块用于提取短期和长期的运动线索。

（2）引言

当前的设备可以支持高分辨率4K\8K和120FPS\240FPS的视频，通过单图像超分的方法虽然可以提高单个图像的分辨率，但是用户对于视频质量的感官却不行。为了更好的利用视频中空间与时间维度之间的相关性能够同时执行VSR和VFI(video frame interpolation，在这段中这个VFI我感觉他写错了，他写的video frame interpretation)重建。当前方法，仅限于固定帧率视频，无法通过灵活调整中间视频帧获得更好的可视化效果。

TMNet，用于为STVSR插入任意数量的中间帧，如下图

为了TMNet能够在STVSR上插任意数量的中间帧，并进行超分重建，本文提出两个模块

(2.1) TMB

首先在DCN框架下估计两个相邻帧之间的运动，由时间参数定义的任何时刻学习可控插值。

(2.2) 双向变形的convLSTM模块

用于探索短期运动线索的局部特征比较模块，用于融合多帧特征以实现有效的空间对齐和特征扭曲。以及一个用于探索长期运动线索的全局时间特征融合。

（3）相关工作

VFI(video frame interpolation)、VSR(video super-resolution)、STVSR(Space-time video super-resolution)、以及调制网络的相关研究内容。

（4）本文方法介绍

如上图所示，这就是本文的TMNet架构，基本上可以分为四个阶段。(1)CFI可控插值，可控的插入中间帧。(2)LFC，局部特征比较，将短期运动线索信息进行提炼比较，提高每个帧的特征效果。(3)GFF，全局特征融合，将长期运动线索进行提炼融合，提升所有帧的特征。(4)上采样，使用Pixel Shuffle进行高分辨率上采样。

（4.1）CFI

CFI可控的插入中间帧。如下图所示，初始的低分辨率、低帧率的视频帧集合经过初始化特征提取，经过CFI插值之后，生成高帧率低分辨率的视频，送入下个模块。

文中PCD(modulated Pyramid, Cascading and Deformable 调制金字塔、级联和可变形) ，下图就是TMB模块实现可控帧插入的结构图，应用在PCD框架上，我们结合图和公式做一下解析。

图左：表示为可控特征插入的结构，表示正向运动表示反向运动，在可变参数t的条件下，进行t时刻内的可控的插值，如下方的公式一所示，表示正向运动生成的插入低分辨率特征，在t时刻根据相邻的低分辨率帧进行生成。表示反向运动生成的插入低分辨率特征，与正向运动相同。将和进行串联聚合，生成最后的特征帧。

图右：表示正向运动的TMB在PCD框架中的过程，在金字塔结构中，镁层结构中都通过TMB块获得offset作为DCN的偏移值(DCN的特点就是便宜的多样性，但是难以训练，训练的不稳定性往往会导致补偿溢出)，根据offset训练后，与底层训练结果进行逐级级联，获得最终的插入帧。可以在右图中看到TMB模块中的内容，将时间参数t经过FCN(全连接层)，输出1*1*64的向量，与每层金字塔中间的卷积进行乘积处理后，在进行相加，输出为偏移值。

（4.2）时间特征融合

（4.2.1）局部时间特征比较

如下图所示：使用滑动窗口的方式进行特征提取，DCN模块中输入的是两部分内容，一是原始的特征信息，二是和经过级联卷积之后offset内容，这种称之为反向学习。正向学习的DCN内容也如此。级联两个DCN信息之后，通过四个1*1卷积层和相加之后进行比较，得到提炼后的信息，最后得到一个特征序列。

（4.2.2）全局时间特征融合

经过LFC细化后的特征序列保证了短期的一致性，为了保证长期的一致性，本文采用全局特征融合的方式。如下图所示，可以看出LFC序列特征的生成，是通过滑动窗口(生成t时刻的特征帧，前一时刻的特征帧与后一时刻的特征帧)，将所有生成的LFC序列特征送入BDConvLSTM(双向可变形的卷积LSTM网络)，生成全局保持一致的序列帧信息。