实时视频拼接系统研究与实现文献综述

 2022-10-13 15:22:09

文献综述(或调研报告):

全景视频拼接的基础是图像拼接。通过对周围场景图像的实时采集,利用图像拼接技术合成全景图像。目前,国内外已经提出多种图像拼接的方法,这些方法主要针对于不同领域进行应用。国外在该领域开始研究得较早,且比较领先。图像匹配大致可分为三个步骤:特征点提取匹配、图像配准和图像融合。

特征点提取匹配是寻找图像的特征点,有一些相同性质的特征点匹配成对。早期的时候,匹配分为两种方法:直接法和基于特征点。直接法尝试迭代估计相机参数,根据重叠区域的强度差异最小化误差函数。直接方法有明显的优点,它们使用所有可用的数据,因此可以提供非常准确的配准。但是它们依赖于脆弱的“亮度恒定”假设,即所有摄像机拍摄的亮度是一致的,而且迭代需要初始化。因此,对于图像缩放、光照变化或不属于序列的“噪声”图像都不具有鲁棒性后来,M.Brown 在2003年提出一种基于尺度不变特征变换(SIFT)的特征检测图像配准算法。该方法保证图像局部特征的旋转、缩放、亮度都不变,并且视角、仿射、噪声稳定,因此具有较好的鲁棒性。然而SIFT算法的计算较为复杂,因此实时性不高,并且对于边缘光滑的目标特征点提取能力较弱。为了改进SIFT算法的缺陷,2006年,Bay等人提出SURF算法。该算法改进了特征点的提取和描述方式,让特征点匹配变得更为高效。近几年又提出了FAST快速匹配算法,和前两种相比,速度有了提高,但相应的匹配精确度有了一定的下降,匹配效果变差。

特征点匹配完成后,需要进行图像匹配。图像配准是提取图像中的匹配信息,找到匹配点之间的投影矩阵,然后将所有图像转换成相同的坐标系。图像匹配的核心是图像扭曲。通过像素的位置变换删减使图像发生扭曲,从而将有重叠部分的多张图像拼接在一起。最常用的方法是,利用RANSAC算法,从提取的特征对中估计时空域的单应性变换,再以其中一幅图像为基准图像,利用单应性变换矩阵,将其他图像拼接到基准图像的周围。2011年,Roblee提出ORB图像配准算法。该算法在利用FAST快速进行角点检测后,用改进的BRIEF算法进行特征值描述拼接。该算法是目前国际上较快的图像拼接算法。

第三步是图像融合。由于光照和运动物体的影响,原始图像的特征也有所不同,图像融合就是在图像重叠区域找到最佳的图像拼接缝合,使我们得到更好的拼接效果。在图像拼接过程中,如果在图像重叠区域有一个运动物体,拼接结果中会出现鬼影现象。在没有运动物体干扰的情况下,由于场景中的物体不是绝对静止的,图像之间的曝光量相对较大,相机没有围绕其光学中心旋转,也会对图像拼接造成干扰。图像融合分为线性法和非线性法。常用的线性融合方式是线性加权过渡。通过距离重叠图像边缘的远近,对像素进行不同权重的加权,并且以重叠图像边缘亮度为极限,进行线性平滑过渡。非线性法是直接通过直方图匹配进行图像融合。以其中一幅图像重叠部分的直方图为基准,将另一幅图的重叠部分直方图与基准图的直方图进行匹配对应,从而应用到整张图中,实现图像的融合。

由于摄像头不同,拍摄出的视频畸变也不相同。为了获得大视野的场景,常用的方式是用多个摄像头组装,从而获得360°的全景图像。为了获得更广阔的视角,也会采用鱼眼镜头,使得获得的视角接近或等于180°。这样可以用更少的镜头获得更大的视野。镜头产生的畸变会影响拼接的效果。常见的做法是,先通过镜头的参数,对采集到的图像进行坐标变换,从而将图像统一投影到平面、柱面或者球面上,从而尽最大可能减少图像的畸变。

近几年来,为了让视频拼接具有更好的实时性,对视频拼接系统进行不同的改进。一种基本的想法是改进图像拼接的算法,降低图像拼接的计算量,从而减少拼接时间。SIFT算法和SURF算法都是常见的改进对象。通过对算法内某些步骤的优化,减少计算量。将图像分割成几个区域,只在重叠区域之间进行特征点匹配,也是降低的计算量的基本方法。另一种思路是,采用GPU进行大量的运算。传统的计算方式都是单线程CPU计算。当图像较少时,计算量也较小;当需要多幅图像进行拼接时,计算量成倍增长,计算时间成倍变长。采用GPU进行运算,可以在计算量依旧增长的前提下,计算时间不变,从而大大缩短视频拼接的时间。除了这两种典型方法外,还有人提出基于YUV颜色模型进行运算。视频传输时是基于YUV模型的,而对视频的处理都是基于RGB模型。直接基于YUV模型进行处理运算,减少了模型间转换的时间,从而为视频拼接节省一定的时间。

参考文献

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版