研究背景
在计算机视觉领域中,场景理解是较为基础的通用感知任务,其研究方向主要包括场景语义分割、场景物体检测等。图像语义分割的任务目标是对每一个像素点进行语义类别预测;而物体检测主要解决两个问题,第一是判断特定类别的物体是否在图像中出现,第二是确定该物体在图片中的位置,学术界默认使用物体边界框来表示位置。实例分割是语义分割和物体检测的融合,它在预测出物体边界框的同时,能够将同一类别不同物体实例的像素点区分开来,得到每个物体实例的像素点范围,实现物体的检测与像素级定位。而全景分割是图像语义分割与实例分割的融合,它需要对图像中的所有像素点进行语义类别预测和实例识别号预测,相比于实例分割,它还需要对填充物类别如天空、河流等进行类别的预测,实现图像的全景理解。实例分割和语义分割是计算机视觉的经典问题,学术界已有大量的文献在研究与探讨这两个问题,而全景分割任务是近几年新提出的场景理解任务,也在计算机视觉界引起了高度重视。
全景分割任务在计算机视觉领域具有重要的研究意义和应用价值, 其研究进展可以直接推动自动驾驶、机器人等领域的发展.。
二、研究现状
全景分割这一问题2018年初时由Alexander Kirillov,Kaiming He等人在论文Panoptic Segmentation[1]中提出,其任务是为图像中每个像素点赋予类别 Label 和实例 ID ,生成全局的、统一的分割图像,融合语义分割和实例分割,完成更丰富的场景理解任务。他们在文中定义了对全景分割的评估指标PQ(panoptic quality)。不过,他们并未在该文中提出关于全景分割的新算法,但定义了一种将语义分割和实例分割的预测结果合并的方法。此外,文章还给出了两个研究方向:1)端到端的全景分割模型;2)研究如何更好地结合语义分析与实例分析的算法。全景分割问题提出后,受到CV学术界的重识,也有不少方法被提出,如JSIS-Net[2]、TASCNet[3]和AUNet[4]等。
目前全景分割大多是通过多分支网络实现,需要分别检测图像中每个像素的类别标签和实例标签,并融合成全景分割结果。当前全景分割主要分为基于候选框的方法和不基于候选框的方法两种。
基于候选框的方法以UPSNet[5]为代表,语义分割头基于可变形卷积,并利用来自特征金字塔网络(FPN)的多尺度信息,实例分割头遵循Mask RCNN[6]设计并输出掩码分割,边界框及其相关类,AUNet和BGRNet[7]分别增加了注意力机制和图结构,以提升算法性能。
非基于候选框的方法主要有BBFNet[8]和Panoptic-DeepLab[9]。 BBFNet结构上取消了实例模块, 直接以语义模块提供things和stuff两类特征, 降低了计算成本. 语义模块使用可变形卷积块的中间特征, 经卷积处理形成语义预测. 其后使用传统的霍夫投票、分水岭方法处理语义分割预测, 其中只有分水岭处理模块的特征与输入图像直接得到的特征进行连接, 形成了分水岭预测, 分水岭特征经变形卷积块处理, 中间特征进入三重损失网络, 三重损失网络能够细化、合并检测到的物体实例, 并检测新的物体, 因此使用三重损失函数可将属于同一实例的像素聚到一起, 将不属于同一实例的像素分开, 缓解像素分配冲突的问题, 使分割结果更准确。BBFNet先进行语义分割,得到stuff的分割结果和things的类别边界,再对things的边界进行细化以预测实例标签,Panoptic-DeepLab以DeepLab v3 作为基础架构,由语义分割、实例中心预测和实例中心回归三个分支组成,对前景进行实例中心预测,并且将其他像素点进行回归分类,类别预测由语义分割分支完成。由于RPN优良的性能,目前以基于候选框的神经网络作为实例分割分支的全景分割方法普遍比不基于候选框的方法准确率高,但是由于RPN计算代价较高,因此不采用RPN的全景分割方法普遍在速度上占优势。
当前全景分割的方法仍集中在基于已存在的语义分割和实例分割模型,在文章Panoptic Segmentation[1]中,作者对比了实例分割和语义分割的结果与人工标注的指标进行了对比,发现在分割质量SQ方向人与网络相差不大,但在识别质量上网络与人类还有较大差距。总体来说,现在虽然出现了不少全景分割的方法,但在实际环境下,还存在以下挑战:
1) 分支融合冲突
全景分割任务是语义分割与实例分割两个任务的综合, 在网络结构方面, 现有大部分方法将输入图像的特征输入到语义分支与实例分支, 然后融合两个分支的输出, 得到全景输出. 但是在融合时会出现像素分配冲突, 影响全景预测质量。
