VSR实现方案总结 | Yin的笔记本

论文	发表于	主要思想	输入输出模式	对齐方式
Video Super-Resolution with Recurrent Structure-Detail Network	CVPR2020	高频分量(Detail)和低频分量(Structure)分开计算	RNN结构	动态卷积
Video Super-Resolution using Multi-scale Pyramid 3D Convolutional Networks	TMM2020	多尺度3D卷积同时提取时间和空间信息	滑动窗口，输入2N+1帧输出1帧	3D卷积
MuCAN: Multi-correspondence Aggregation Network for Video Super-Resolution	ECCV2020	聚合多个尺度上的信息	滑动窗口，输入3帧输出1帧	在一定范围内搜索相似图像块、不完整的动态卷积
BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond	CVPR2021	验证现有的各种网络结构对VSR任务的影响，并进而找到了一种SOTA方案	RNN结构	光流
BasicVSR论文中介绍的IconVSR	CVPR2021	在BasicVSR使用关键帧补充信息	RNN结构	光流
BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment	NTIRE2021	二阶网状传播、光流引导的可形变卷积对齐	RNN结构	光流、可形变卷积

大量研究想要避免光流对齐的理由：

# Video Super-Resolution with Recurrent Structure-Detail Network

输入部分：

从当前帧 $I_{t}^{L}$ 和上一帧 $I_{t-1}^{L}$ 中提取高频分量 $D_{t}^{LR}$ 、 $D_{t-1}^{LR}$ 和低频分量 $S_{t}^{LR}$ 、 $S_{t-1}^{LR}$
高频分量的分支：
- 拼接 $D_{t}^{LR}$ 、 $D_{t-1}^{LR}$ 、上一帧的隐藏层输出 $h_{t-1}^{SD}$ 经过隐藏状态自适应处理(Hidden-state Adaption)后的输出 $\hat h_{t-1}^{SD}$ 和上一帧的高频分量预测值 $\hat D_{t-1}$
- 经过一个卷积和ReLU

SD-Block长这样：

主要是为了让高低频的处理过程有交互

上面说的隐藏状态自适应处理(Hidden-state Adaption)实际上就是基于动态卷积的特征对齐：

这是3D卷积，其实就是卷积核和扫描的方向多一个时间维度

多尺度3D卷积提取特征：

输出HR图：

细节再填充：就是普通的单图SR

TM-CAM：

CN-CAM：

双向RNN
RNN单元内部：
- 用当前帧 $x_i$ 和前一帧 $x_{i-1}$ (或是后一帧 $x_{i+1}$ )计算光流
- 借助光流对前一帧的隐藏层输出 $h^f_{i-1}$ (或是后一帧的隐藏层输出 $h^b_{i+1}$ )进行特征对齐
- 将对齐后的特征与原图进行ResBlock计算，得到 $h^f_{i}$ 和 $h^b_{i}$
$h^f_{i}$ 和 $h^b_{i}$ 拼接后进行Upsample得到高清输出

具体怎么混入：在关键帧处从前后帧和当前帧中提取特征然后与 $h^f_{i}$ 和 $h^b_{i}$ 进行卷积，非关键帧处不变

光流引导的可形变卷积：

这样可以保证训练的稳定性