视频编码后图像质量提升方法研究文献综述

 2022-09-26 05:09

文献综述(或调研报告):

由于存储空间和传输带宽限制,图片和视频的压缩标准在不断更新以得到更小的比特率,然而压缩过程不可避免地存在了失真问题,会影响视觉体验。

失真主要有块效应和振铃效应[1]。由于编码过程是基于CTU(编码树块)进行的,DCT变换后,对系数进行量化,块与块之间的相关性丢失,边界处就会出现块效应。HEVC中,利用去块滤波Deblock来减小块效应。振铃效应是由于DCT变化后对高频分量滤波导致的输出图像的灰度剧烈变化处产生的震荡。HEVC中利用SAO方案减小振铃效应。Deblock和SAO都在环内滤波过程完成。

过去几十年,有许多人致力于减少压缩损失,提高压缩图片和视频的质量。然而,研究重点主要放在了对压缩图片的处理上,Liew[1]提出利用过完备小波表示的方法减少编码后图片的块效应。Foi[2]采用了逐点自适应DCT算法减少JPEG压缩带来的块效应和振铃效应。还有许多方法通过稀疏编码的方法来减少JPEG失真,例如[3][4]。

另一方面,最近几年,卷积神经网络(CNN)作为一种深度学习的方法,在计算机视觉方面取得了巨大成就。卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。

继图像超分辨率之后,CNN也被用来提高编码图片的视觉质量。Dong等人[5]设计了一个四层的CNN(ARCNN)来增强JPEG图片的质量。ARCNN是基于他们之前提出的图像超分辨率SRCNN改进的,其中,第一层卷积用作特征提取,第二层用作特征去噪加强,第三层用作特征映射,最后一层用作图片重建,首次实现了基于卷积神经网络的质量恢复。Wang等人[6]为此研究了另一个深层网络,叫做D3。作为对比,这些基于CNN的方法比其他传统方法性能更加出色,也证明了卷积神经网络在提高压缩图片和视频上的巨大潜力。

在视频压缩的最新标准HEVC方面,也有许多方法被提出来增强视觉质量。Han等人[7]提出了一种环内滤波器加在编码和解码端,独立于原本的环内滤波。Park[8]设计了一种CNN代替HEVC编码中的采样自适应补偿(SAO)。之后,Dai[9]在ARCNN的基础上提出一种新的CNN结构来代替帧内编码的环内滤波器,这是卷积神经网络在压缩视频质量增强方面的一个大的突破,证明了这类方法的可靠性。然而这些方法都是在HEVC编码端对视频进行恢复,对已编码视频的恢复没有实用性。Wang[10]最新提出了一个深层网络可以直接运用在已编码的视频流上,取得了很好的效果。然而它只对单一帧进行学习,因此对P/B帧的增强效果不明显。Yang[11]利用P/B帧编码的先验信息,提出了DSCNN,其中,DS-CNN-I和DS-CNN-B作为两个子网络,分别减少帧内和帧间编码的失真。更重要的是,当运用DCAD和DS-CNN时视频编码端不需要修改。最新的,Yang等人[12]先提取编码后的峰值质量帧,利用前后峰值质量帧对当前帧进行质量恢复,这个方法用了多参考帧作为输入,取得了当前最好的HEVC编码视频的质量恢复效果。

理论上来说,卷积层越深,卷积核数量越大,网络能提取的特征越多,层次越高,效果就会越好,而实际效果却往往会在一定层数后下降。这是因为传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失,损耗等问题,同时还有导致梯度消失或者梯度爆炸,导致很深的网络无法训练。Kaiming He等人对此提出了ResNet[14], 通过使用ResNet Unit成功训练出了152层的神经网络,并在ILSVRC2015比赛中取得冠军,在top5上的错误率为3.57%,同时参数量比VGGNet低,效果非常突出。ResNet的结构可以极快的加速神经网络的训练,模型的准确率也有比较大的提升。同时ResNet的推广性非常好,Fan Li等人在他们的网络中引入残差网络训练了一个9层卷积的网络,在视频质量增强上取得了很好的效果。在不同QP下的提升效果如下所示

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。