视频超分辨率
视频增强和超分是计算机视觉领域的核心算法之一,目的是恢复降质视频本身的内容,提高视频的清晰度。该技术在工业界有着重要的实用意义,并对于早期胶片视频的质量和清晰度的提升有着重大的意义。
图像、视频超分辨研究现状
根据数据类型分类,目前的超分辨工作分为图像超分和视频超分。
图像超分
图像超分领域随着卷积神经网络的应用,不断有新的网络结构取得更优的性能,以下 6 种结构是目前图像超分领域所使用的方法:
-
残差结构 目前超分领域普遍认为更深的网络能够带来更优性能,但更深的网络也带来训练困难的问题,残差结构能够缓解该问题,例如:EDSR;
-
多分支结构 从增加网络的宽度来提升性能,也是一种增强特征表达的方式,例如:REDNet;
(以上两种结构都会带来巨大的参数量)
-
循环结构 利用共享网络参数、循环递归的方式,在减少网络参数的情况下提升性能,例如:DRCN;
-
渐进式结构 把超分辩设计成多个阶段的网络结构,利用逐步增加分辨率的方式,提高超分性能,例如:SCN;
-
注意力机制 提高特征的表达能力,从而提高性能,例如:RCAN、DRLN;
-
对抗模型 利用 GAN 的思想生成更符合人眼视觉评价的高分辨率图片,例如:SRGAN、EnhanceNet、ESRGAN.
视频超分
视频超分与图像超分的区别主要有两点,包括:
-
视频帧对齐 因为视频中存在各种运动信息,所以存在参考帧和目标帧的偏差,但超分辩一般需要利用邻帧跟参考帧做对齐;
-
视频帧融合 视频中存在运动模糊和场景切换的问题,如何有效融合视频帧,去除干扰信息,对最终的结果也有影响。
而在这两方面,视频超分的主要结构有以下几个类型:
-
三维卷积 直接利用 3D 卷积捕捉时域特征的功能,直接做帧间融合;
-
循环结构 可用于提取帧间关系,融合目标帧和参考帧的信息,例如: LSTM 的结构来做帧间融合;
-
滤波器预测 利用融合后的帧间信息预测滤波器参数,再通过滤波的方式做超分辩,获得自适应的滤波效果;
推荐阅读: