基于多帧的视频质量增强技术与实现文献综述

 2022-08-12 10:08

一、文献综述

(一)国内外研究现状

在当今社会,随着腾讯视频、抖音等视频应用的快速发展,以及监控摄像头等视频采集设备增加,视频逐渐成为互联网的主要流量,对高分辨率视频的压缩、低分辨率视频的增强需求日益扩大。

目前,主流的视频压缩编码标准有AV1、HEVC等,利用视频图像在时域、空域上的冗余对视频图像进行有损压缩。经过有损压缩的视频图像必然存在失真,影响主客观质量,降低了用户的体验。因此,在保证视频、图片质量的前提下,针对视频传输速率和带宽需求,对通过后处理的手段提高视频图像质量提出了更高的要求和挑战。从企业方面来讲,在尽可能保持图像质量的情况下,使图像大小减少,不仅能降低存储成本,同时还能减少流量成本,经济效益巨大;对用户来说,希望尽可能减少流量使用并获得足够的清晰度和流畅度。图像增强技术,有助于在用户端将所得到的较低分辨率模糊的图像重建为更清晰的图像,例如华为手机的“拍月亮”功能采用多帧融合技术,提高了月亮的细节与分辨率。

图像超分辨率首先在1989年由Irani和Peleg提出,它是指将低分辨率图像转化成图像质量更好的高分辨率图像。复原的概念最早是由J.L.Harris和J.w.Goodman分别于1964年和1965年提出一种称为Harris-Goodman频谱外推的方法。Tsaiamp;Huang首先提出了基于序列或多帧图像的超分辨率重建问题。1982年,D.C.C.Youla和H.Webb在总结前人的基础上,提出了凸集投影图像复原(Pocs)方法。1986年,S.E.Meinel提出了服从泊松分布的最大似然复原(泊松-ML)方法。1991年和1992年,B.R.Hunt和PJ.Sementilli在Bayes分析的基础上,提出了泊松最大后验概率复原(泊松-MAP)方法,并于1993年对超分辨率的定义和特性进行了分析,提出了图像超分辨率的能力取决于物体的空间限制、噪声和采样间隔。

2016年,Dong等人提出了SRCNN(Super-Resolution Convolutional Neural Network)网络,首次将卷积神经网络应用于单张图像超分辨率重建中,开创了深度学习在图像超分辨率问题中的应用。SRCNN将深度学习与传统稀疏编码之间的关系作为依据,将3层网络划分为图像块提取(Patch extraction and representation)、非线性映射(Non-linear mapping)以及最终的重建(Reconstruction),其重建效果远远优于其他传统算法。2017年,Li D, Wang Z提出了一种新颖的视频超分辨率算法,使用运动补偿与残差网络(MCResNet)。他们将光流算法用于运动估计与运动补偿以进行预处理,然后使用深度残差卷积神经网络,使用多个运动补偿观测值来预测高分辨率图像。他们所提出的CNN模型可以保留低频内容且有助于恢复高频细节,并自适应地处理大型和复杂的运动。同年,Caballero J等人引进了一种时空亚像素卷积网络,能够对视频进行超分辨率重建并且做到实时速度,实现了将动作补偿和视频超分辨联合起来的算法,并且可以端到端训练。

(二)研究主要成果

目前, 图像超分辨率研究主要分为三个范畴: 基于插值、 基于重建和基于学习的方法。图像超分辨率可以视为是一种图像恢复问题(Image restoration)。基于学习的方法是近年来超分辨率算法研究中的热点,它采用大量的高分辨率图像构造学习库产生学习模型,在对低分辨率图像进行恢复的过程中引入由学习模型获得的先验知识,以得到图像的高频细节,获得较好的图像恢复效果。随着深度学习的迅速发展,在图像超分辨率问题上有了很大的突破。主要使用卷积神经网络来寻找低分辨率图像与其对应的高分辨率图像之间的映射关系来提取高频信息。基于深度学习的算法可以分为三步骤:1) 特征提取。2)非线性映射。3)图像重建。其中SRCNN是深度学习应用在超分辨率问题上的开山之作。它的网络结构仅由三层卷积层构成,首先采用Bicubic插值算法将原始图像放大成目标尺寸图片,然后通过三层卷积神经网络来实现端到端的非线性映射,输出高分辨率图像。相较于传统方法,SRCNN在主客观质量上都有了明显的提升。2016年,学者提出了VDSR神经网络对SRCNN进行了改进,采用更深的20层的网络来提升重建效果,原因主要是深层网络能获得更大的感受野,学习的信息更多,准确率更高。同时他们提到低分辨率图像携带的低频信息与高分辨率图像的低频信息相近,而训练会有很大一部分时间花费在这部分上,故引入了残差网络的思想,仅训练高分辨率与低分辨率之间的高频残差部分。另外有学者发现,传统的基于卷积神经网络的超分辨率重建算法主要以MSE作为损失函数,虽然这种方式可以在重建后取得较高的PSNR,但是当放大倍数过高时,会导致重建的图像丢失细节,主观质量较差。2017年,学者提出了SRGAN网络,首次将成对抗网络(Generative Adversarial Network, GAN)用于解决图像超分辨率问题,SRGAN网络采用感知损失(perceptual loss)和对抗损失(adversarial loss)来提升目标图像的主观质量,提升图片真实感。其产生的重建图像虽然psnr相对较低,但有着较好的视觉效果。2018年,RCAN网络引入了注意力机制,同时使用了长残差连接和短残差连接,大大加快了网络的训练速度。

(三)发展趋势

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。