一、文献综述
- 国内外研究现状
在过去的几十年中,图像、视频在网络传输中逐渐占据主导地位。根据思科流量数据预测[1],目前视频、多媒体占互联网流量的75%,预计到2022年,这一数值将达到82%。考虑到传输带宽和成本等因素,视频在存储和传输过程中需要进行压缩处理。目前普遍采用的方法是有损视频编码技术,视频经过编码后能够显著的节省视频码率[2]。但是,压缩后的视频不可避免地会出现压缩伪像、噪声[3]等问题,严重降低了观看者的视觉体验质量(QoE)。因此,对压缩视频的质量增强的研究是很有必要的。
近年来,人们对增强压缩图像、视频的视觉质量越来越感兴趣。特别是Foi等人[4]采用点方向形状自适应的DCT(SADCT)来减少由JPEG压缩引起的块和振铃效应。后来,Jancsary等人[5]提出通过采用回归树字段(RTF)来减少JPEG图像块效应。接着,稀疏编码也被用于去除JPEG伪像,例如[6]和[7]。此外,随着机器学习热潮的兴起,基于卷积神经网络(CNN)的方法在近几年引起广泛关注,CNN强大的学习能力能够深度挖掘图像特征与相关性,获得明显高于传统方法的性能,具有巨大的潜力。
起初,卷积神经网络被用于图像超分辨率,并取得了优异的性能。各种不同类型的CNN网络相继被提出,例如Dong等人[8]所提出的超分辨率CNN(SRCNN)、基于残差的深层超分辨率网络(VDSR)[9]、拉普拉斯金字塔超分辨率网络(LapSRN)[10]、以及最近的广激活深度超分辨率网络(WDSR)[11],这些CNN模型以端到端的方式,在输入和输出图像之间建立了非线性映射关系,为图像和视频的质量增强带来了启发。
考虑到图像质量增强与超分辨率问题类似,不少学者开始尝试用CNN来对图像进行质量增强。Dong等人[12]在SRCNN的基础上提出去噪CNN(ARCNN)来减少JPEG压缩引起的伪像。之后,利用JPEG压缩图像的先验知识,提出了用来增强JPEG图像质量的D3[13]和双域深度卷积网络(DDCN)等高级深层网络。而后,去噪CNN(DnCNN)[14]等网络结构也相继被提出。这些方法都针对图像增强设计,不适用于视频序列。
为了提高压缩视频的质量,提出了可变滤波器大小的残差学习CNN(VRCNN)[15]来代替HEVC编码的环路滤波器。但是,[15]中的CNN被设计成视频编码器的组成部分,因此对于已经压缩的视频来说是不可行的。之后,Wang等[16]提出基于CNN的自适应解码器(DCAD)来提升H.265/HEVC压缩视频的质量,取得了不错的效果,Yang等[17]也提出解码端可扩展CNN(DS-CNN)来完成视频质量增强。其中,作为DS-CNN两个子网的DS-CNN-1和DS-CNN-B,分别用于减少帧内编码和帧间编码的伪像。这些模型都属于单帧增强模型,即输入一帧低质量图像,通过CNN挖掘该帧图像空域相邻像素点之间的相关性,来修改图像中的像素值,以得到更接近原始图像的增强图像。显然,它们仅利用了像素的空域相关性,但没有考虑视频在时间域上的相关性。故视频质量增强性能受到一定的限制。
为充分利用视频序列时域的相关性,就需要借助相临帧之间的有利信息,即采用多个帧一起来进行质量增强。同单帧增强一样,多帧策略早期也是应用在图像超分领域。在早期,Brandi等人[18]和Song等人[19]提出了利用高分辨率关键帧来扩大视频分辨率。最近,许多多帧超分辨率方法都采用了深度神经网络。例如,Huang等人[20]提出了双向递归卷积网络(BRCN),它比传统的单帧方法提高了超分辨率性能。2016年,Kappeler等人提出了一种视频超分辨率网络(VSRnet)[21],其中,将相邻帧根据估计的运动信息进行变形,并且将当前帧和变形后的相邻帧一起送入到VSRnet中,以扩大当前帧的分辨率。后来,Li等人[22]提出用残差学习策略将VSRnet替换为更深的网络。此外,[23,24]中提出了多帧视频超分辨率的其他方法。
随后,人们也逐渐开始了将多帧策略应用到压缩视频质量增强方向上的研究。其中,Yang等人[25]做出了第一次尝试,提出了一种多帧增强方法(MFQE)。考虑到压缩视频帧间的质量波动,该方法利用两个临近高质量帧的信息来对当前的低质量帧进行增强。首先,使用运动补偿网络对高质量帧与当前帧进行运动补偿,分别得到两个运动对齐帧。然后,将这两个携带了时域信息的对齐帧与当前帧一起送入所设计的CNN网络,以增强当前帧的质量。最终,该方法在Low Delay P、量化参数为37的配置下,相比于H.265/HEVC的参考软件HM,性能平均可高出0.51dB,超过了以往的单帧增强方法。
- 研究主要成果
最早的视频质量增强方法基于空域单帧展开。利用每一帧图像空域内相邻像素点之间的相关性,提高压缩视频每一帧的质量。Wang等人[16]提出了一种用于解码端的深度CNN模型DCAD来达到去除伪像和增强压缩视频每帧图像细节信息的效果。在训练的过程中,将经过H.265/HEVC编码后的当前帧作为网络的输入,送入一个具有10个3times;3times;64的卷积层的残差网络,在当前帧和与之对应的原始图像之间建立了一条非线性的映射关系,从而达到增强每一帧图像的目的。最终该方法在HEVC的四种常用编码配置下分别能节省5.0%、6.4%、5.3%、5.5%的码率。
