文献综述(或调研报告):
行人再识别是近几年智能视频分析领域兴起的一项新技术,主要用于公共安全视频监控中的行人图像识别。在计算机视觉领域,行人再识别问题是指,给定一个人在一个摄像头下的拍摄画面(图像或者视频),在其他候选摄像头的拍摄画面中识别同一个人,其他候选摄像头往往与给定的摄像头没有相交的拍摄区域。从技术上讲,一个完整的行人再识别监控系统可以分成三个模块:行人检测、行人跟踪、行人识别与检索。普遍认为,行人检测和行人跟踪是两个独立的计算机视觉问题,因而大多数行人再识别的研宄工作聚焦于行人识别与检索。
在识别同一个目标时,视角、尺度、光照、服饰多样性、姿态多变性、分辨率不同、身体部分遮挡、不同摄像头间失去连续的位置和运动信息,都会影响目标的检索。例如,视角变化会带来场景中的物体与摄像头光轴呈现不同的夹角,导致二维图像中物体表象存在差异;而尺度变化则会导致同一目标在图像中所占图像区域大小不同,这就要求算法对尺度具有一定鲁棒性,增加了特征提取的难度。鉴于视频监控下环境的复杂性,研宄者们一直致力于提高识别的准确率和检索效率。
行人再识别问题最早起源于多摄像头跟踪问题。在早期研宄中,行人再识别这个问题还没有给出规范化定义,那时的行人再识别问题研宄与多摄像头跟踪问题密切相关。在1997年,Huang和Russell提出了用贝叶斯公式根据物体的外观特征来估计一个摄像头拍摄到的物体在其他摄像头出现的后验概率[1]。外观特征包括了多个时空特征,比如颜色、车辆的长度、高度、宽度、速度以及观察时间。据我们所知,在多摄像头跟踪研宄中,“行人再识别”这个术语第一次是在2005年由荷兰阿姆斯特丹大学的Zajdel, Zivkovic 和 Krose 提出的,他们发表的论文标题为“Keeping track of humans: Have I seen this person before?”,Zajdel等人的目标是当一个人离开目标区域后,在他重新进入目标区域时,能够将这个人识别出来[2]。在他们的方法中,每一个人被赋予了一个独一无二的ID,用一个动态贝叶斯网络来建模ID和特征之间的概率关系,采用的特征结合了拍摄片段中的颜色特征和时空特征。当出现过的人再次进入目标区域时,他的ID由根据近似贝叶斯推理算法求得的后验概率分布决定。
在2006年,Gheissari等人发表了第一篇基于图像的行人再识别方法的论文[3]。Gheissari等人首先采用时空分割算法检测行人的前景区域,然后提取出行人的视觉特征,特征包括颜色直方图和显著边缘直方图,最后根据特征做匹配。尽管在行人检测方法中,使用了视频信息,但是在图像特征提取及匹配的过程都没有涉及视频信息,因而该方法是基于图像的。这项工作用来做实验的数据集来源于3个拍摄区域轻微重叠的摄像头,包含了44个不同的行人。这篇论文标志着行人再识别作为一个单独的任务从多摄像头跟踪任务中分离出来。
尽管最初行人再识别应用于多摄像头跟踪,大多数行人再识别的研宄工作聚焦于图像匹配。在2010年,Farenzena等人[4]和Bazzani等人间都提出了用多帧图像做行人再识别,其中,多帧图像是随机选取的。两项工作都釆用了图像特征,此外,Farenzena等人[4]还采用了分割模型来检测前景。在距离测量方面,两项工作都采用了两个图像集合两两图像距离的最小值作为两个图像集合之间的距离,Bazzani等人K采用的是巴氏距离。结果表明,对一个行人使用多帧图像的集合做识别,相比于仅用单帧图像做识别,识别准确率得到有效提高。
在2012年,Hinton团队间为了证明深度学习的潜力,首次参加了ImageNet图像识别比赛,通过构建的卷积神经网络AlexNet—举夺得冠军。从这以后,深度学习的研究迎来了爆发期。在2014年,Yi等人[7]和Li等人[8]都采用了“Siamese”神经网络[9]来判断输入的一对行人图像是否是同一个人。采用“Siamese”网络的原因或许是一个行人的训练样本很有限,大多数情况下只有2张。除了一些参数设置上的不同,Yi等人[7]在网络中加入了一个额外的代价函数,而Li等人[8]采取了更好的身体区域划分方案。这两个方法没有采用相同的数据集做实验,所以不能直接作比较。尽管深度学习在小的行人再识别数据集上的性能不稳定,但应用深度学习解决行人再识别问题是大势所趋。
大多数行人再识别的研究工作中,都采用人工标注的行人边界框,而在实际应用中,采用人力标注海量数据不现实,往往采用检测器来检测行人。研究行人检测器的检测结果对行人再识别的准确率的影响很有必要。Xu等人在2014年对行人检测(共同性)和行人再识别(独特性)联合建模[10]。实验结果表明,联合建模的准确率比单独建模的识别准确率要高。
