|
一、研究背景及意义 视频不仅是互联网信息传播的一大载体,也是许多自动化应用处理的主要数据之一。视频目标分割(Video Object Segmentation, VOS) 是一种二元标记问题',其目的是识别和描述视频中出现的一个或多个目标,该任务可以看作是像索级的目标跟踪。视频中目标的识别与分割是场景理解的基础,因其精确到像素级的标记以及在分割结果上具有时间空间关联,而对计算机视觉中多个领域的研究具有重要意义,例.如动作识别、目标跟踪、自动驾驶汽车、视频内容分析等,因此视频目标分割也逐渐成为研究热点。 近年来,深度学习(Deep Lerning, DL)技术已经在图像识别、目标检测、实例分割等任务中取得了成功,然而这些任务都是针对静态图像,视频目标分割是比这些任务更复杂的问题,它被认为是这些经典任务的扩展。与这些任务相比,视频中待分割的目标类别是未知的,而图像识别、目标检测和实例分割的模型都建立在已知类别上,面对未知的对象,模型没有它们的相关特征就会将其划分为背景,但这种处理方式是正确的,因为模型只需要对学习过的目标做出响应。但在视频目标分割中如果指定的待分割目标是模型从未见过的,也需要将其从后续帧中分割出来。因此静态图像中的这些算法并不能简单地扩展到视频目标分割中。与目标跟踪相比,视频目标分割面临与其类似的多样化场景,例如遮挡、目标表观和尺度的变化等,但跟踪任务得到的是包围目标的边界框,而分割则要将视频中属于目标的像素正确分类,并将其与背景分离,这是一项更加精细的工作. 由于大型数据集的出现,已经有不少方法在视频目标分割上取得了显著进步,但这仍然是一个具有挑战性的课题。大多数现有方法在分割的精度和效率上很难达到平衡。分割的精度主要受三个方面影响:第一,视频中背景往往十分混杂,除了带分割的目标,还存在许多其他物体;第二,被分割的目标表现和尺度会不断变化,算法一点具有很强的适应能力;第三,不少视频来源于手持设备,相机会发生移动和抖动,因此视频背景和前景会同时变化,快速运动的物体还会造成运动模糊。为了应对多样化的场景,现有算法常常设计的非常复杂,有的甚至一味追求精度忽略算法运行时间,导致效率低下。而速度较快的算法,考虑的场景过于简单,导致分割的精度不够高。因此,针对这些问题展开研究对该领域的进展具有重要意义。 二、国内外研究概况 (1) 视频目标分割的数据集 2016年的DAVIS视频目标分割挑战赛提供了50个视频序列,共计3455张图像,其中训练集有2079张图像,覆盖了多个常见的具有挑战性的场景,如遮挡、运动模糊和外观变化等。视频中每一帧只有一个待分割目标,但有的目标是由多个物体组成的,例如人和自行车共同组成一个目标。2017年DAVIS数据集加入了多目标视频,将训练集和验证集增加至90个视频,共计6242帧图像,其中多目标视频中每一帧图像都标注了2个或以上的目标。DAVIS 2017 数据集对之前的DAVIS 2016 数据集进行了修改,将多个物体组成的合成目标重新标注为独立个体。 DAVIS 数据集的出现,让更多人关注到视频目标分割领域,使用深度学习技术去解决该问题也成为可能。然而,DAVIS 数据集规模依然不够大,对于使用深度学习方法而言存在一定的局限性。2018年提出的YouTube-VOS数据集是第一个用于视频目标分割的大规模数据集。其中包含了4453个YouTube视频,94个目标类别,19万以上的图像标注,并且视频中通常含有多个目标。YouTube-VOS规模更大,而且涵盖的场景和目标运动变化更加丰富,因此也更具有挑战性。 (2) 视频目标分割方法介绍 2.1视频目标分割方法概述 Video Segmentation问题中,又可以划分两个子类别Unsupervised 和Semi-supervised Unsupervised(无监督视频目标分割) :任务是查找和分割视频中的主要目标,因为没有监督,算法自行决定主分割是什么。 Semi-supervised(半监督视频目标分割):只给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中像素级分割标注的目标,实际就是像素级的目标追踪问题。Semi-supervised又可以细分为单目标分割和多目标分割。 2.2 半监督视频目标分割方法 第一类算法独立地处理视频的每一帧,不涉及帧间的时序信息,以Caelles等人提出了经典的解决方法OSVOS,其利用全卷积网络对静态图像进行离线和在线训练进行单帧视频目标分割。先在ImageNets数据集上训练图像分类网络,得到基础网络模型即预训练网络模型。然后使用全卷积网络在DAVIS数据集上继续训练,此时网络无法分割特定目标。在这一步,网络已经能够将前景对象与背景区域分开。但是,它对特定的分割目标不敏感。最后,针对每个视频帧序列训练一个在线分割模型,给定视频序列的第一帧进行在线微调,使网络模型专注于当前帧中的前景目标。OSVOS取得了不错的结果,但是由于只是单独的对视频帧进行单帧分割,没有利用视频的时序信息,视频很长时效果大大下降。此外,他们利用显式语义信息扩展了目标模型,显著提升了分割的表现。 第二类方法处理视频帧时需要利用前一帧的分割结果,因此视频帧的处理具有时间关联。这类方法以Perazzi提出的MaskTrack为代表,主干网络采用语义分割网络,在预测每一帧图像时,总是用前一帧预测的结果作为当前帧的猜测。然而MaskTrack过于依赖前一帧的预测结果,若前一帧预测不够准确,后续的结果中误差会不断积累。Khoreva等人在此基础上提出了LucidTracker算法,在MaskTrack的基础上,给网络输入增加了相邻两帧的光流幅值图。另一些方法在网络提取到粗略的掩码后,利用光流对掩码进行精修。运动信息的加入使得算法的分割精度得到了提升。无论是前一帧的预测掩码还是两帧图像之间的光流,它们对于网络而言都是一种指导信息,前一帧掩码粗略的给出了目标的位置和形状,光流侧给出了目标中每个像素运动的瞬时速度,这些信息指导网络得到了更加精确的结果,但是这些算法利用卷积神经网络提取光流,耗时较多。该方法同样采用离线和在线学习策略的组合,其中前者从前一帧估计产生精制的掩模,后者允许捕获特定对象实例的外观。另外该方法也可以目标边界框类型的输入注释。 现存的半监督单帧视频目标分割其他方法也大都将视频目标分割描述为像素级别的匹配问题,利用图像序列的子序列来估计感兴趣的目标,直到序列结束。文献2结合了基于类别的目标检测,与类别无关的目标外观分割和运动目标跟踪。对象语义类别在整个视频中趋向于不改变,而其外观和位置可以相差很大。为了捕扶独立于其类别的特定对象外观,对于每个视频,作者使用给定的带注释帧来训练完全卷积网络.然后,由语义对象检测网络或先前的帧预测提供的边界框来细化外观分割掩模。最后,通过在检测到的边界框上引入时间连续性约束,改善了外观网络的目标分割掩模。 2.3视频目标分割难点分析 大部分视频目标分割算法都在DAVIS数据集上进行评估,该数据集涵盖了多样化的场景大部分常见的具有挑战性的场景,如背景混杂、遮挡、运动模糊、尺度变化和表观变化等,结合多种思路,有可能处理更多的情况,比如 [FastVideo2018,CapsuleVOS2019,Ranet2019]。 除此之外,如何使方法更加高效以达到实时处理的效果(比如不用 online training)[SiamMask2019],使用无标注数据做无监督学习 [MaskTrack2017,Joint-task2019,Learning-Corr2019] ,也是当前许多工作的出发点。 |
毕 业 设 计(论 文)开 题 报 告
|
1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,每人撰写 2000字左右的文献综述: |
|
|
三、文献综述 视频数据急剧增长,为了分析和利用它们,研发自动分割和跟踪视频中感兴趣的对象技术是非常迫切的。视频对象分割和跟踪是计算机视觉领域的两个基本任务。对象分割将视频帧中的像素划分为前景目标和背景区域的两个子集,并生成对象分割mask,这是行为识别和视频检索的核心问题。对象跟踪用于确定目标在视频图像中的确切位置,并生成对象bounding box,这是智能监控,大数据视频分析等的必要步骤。 视频分割任务目标在于对视频像素做 pixel-level 的分类,其对于视频智能编辑等具有重要意义。该任务和视频目标跟踪任务(Video object tracking, VOT)关系紧密,VOT 只关注目标在多帧视频中的 bounding box,而 VOS 则需要得到 pixel-level 的 mask。最近的工作 [SiamMask2019] 设计了的模型同时对 tracking 和 segmentation 做多任务训练,在测试阶段,只需要在视频第一帧画出目标 bounding box,即可在余下帧中得到该目标的 bounding box 和 segmentation mask。视频对象的分割和跟踪问题似乎是独立的,但它们实际上是不可分割的。 也就是说,其中一个问题的解决方案通常会直接或间接的解决另一个问题。 显然,通过解决对象分割问题,很容易得到对象跟踪问题的解决方案。一方面,准确的分割结果为跟踪提供了可靠的对象观察,这可以解决诸如遮挡,变形,缩放等问题,并从根本上避免跟踪失败。对象跟踪问题也是如此,它必须提供对象分割问题的粗略解决方案。另一方面,准确的物体跟踪结果还可以指导分割算法确定物体位置,减少物体快速移动、复杂背景、相似物体等影响,提高物体分割性能。 许多研究工作已经注意到,同时处理对象分割和跟踪问题,可以克服各自的困难并提高其性能。 相关问题可分为两大任务:视频对象分割(VOS)和视频对象跟踪(VOT)。视频目标分割的目的是使用目标掩码(mask)在整个视频中分割一个特定的目标实例,且该目标实例是在第一帧手动或自动圈出来的。 半监督VOS介于无监督VOS和交互式VOS之间,需要手动标记前景对象,然后在剩余帧上自动分割该前景对象。此外,由于收集视频级标签的便利性,另一种监督VOS的方法是在[155,206]或自然语言表达式[84]的情况下生成对象的掩码。但是,如上所述,VOS算法隐式地处理跟踪过程。也就是说,自下而上的方法使用时空运动和外观相似性来以完全自动的方式分割视频。这些方法一次读取多个或所有图像帧以充分利用多个帧的上下文,并对精确的对象掩码进行分段。通过这些方法评估的数据集由短期视频主导。此外,由于这些方法不断优化能量函数或微调深网络,所以它可能很慢。与VOS相比,给定一系列输入图像,视频对象,跟踪方法利用一个类特定的检测器来可靠地预测每帧中对象的运动状态(位置、大小或方向等)。一般来说,大多数VOT方法特别适合处理长期序列。由于这些方法只需要输出对象的位置、方向或大小,VOT方法使用在线方式进行快速处理。
图1:先前视频对象分割方法(DAVIS - 2016基准测试)的质量和速度比较。对每秒帧数 (FPS) 的交叉口联合 (IOU) 进行可视化。 视频对象分割—从视频序列中分离出前景对象—是视频分析和编辑中最重要的任务之一,Adobe After Effects等商业应用程序为其提供专用工具。然而,自动视频对象分割还远未解决问题,后期制作视频编辑通常需要大量的人工交互才能取得令人满意的效果。尽管最近的工作已经解决了这个问题,但是无论是质量还是速度,性能仍然有限。在文献目标是开发一个准确的视频对象分割算法,该算法也足够快,可用于交互式设置。 视频对象分割方法通常依赖于两个重要的线索。基于传播的方法[13,37,28,30]主要利用对象运动的时间相关性,并将此问题表达为从给定的带注释的帧开始的对象遮罩传播(即像素级跟踪)。这些方法依赖于像素之间的时空连接,并且因此可以适应目标对象的复杂变形和移动,只要外观和位置的变化平滑。然而,这些方法容易受到像遮挡和快速运动这样的时间不连续性的影响,并且一旦传播变得不可靠,就会遭受漂移。 基于检测的方法[5,27,45]从给定的带注释的帧中学习目标对象的外观,并在每一帧执行目标对象的像素级检测。由于它们很少依赖时间一致性,因此它们对于堵塞和漂移具有强大的作用。然而,由于他们的估计主要基于注解帧中的对象外观,所以它们往往不能适应外观变化并且难以用具有相似外观的对象实例进行分离。
图2 近期解决这个问题的方法是利用深层网络。这些方法中的大多数很大程度上依赖于在线学习,其中预先训练的深度网络在测试视频上进行了微调[45,30,40,5,27,18,21]。尽管在线培训通过让网络适应目标对象的外观来提高分割准确性,但它在计算上是昂贵的,因此限制了它的实际使用(例如,对于每个测试视频它需要几分钟的GPU驱动培训)。该方法使用的网络由两个共享参数的编码器、一个全局卷积块和一个解码器组成。网络是完全卷积的(如图2所示)。 文献提出用一种新的半监督视频对象分割混合方法。构建一个Siamese编码器 - 解码器网络,它同时利用前一个掩码传播到当前帧,而参考帧指定当前帧中要检测的目标对象。我们的网络旨在生成锐利的对象蒙版,而无需耗时的后期处理。为了解决缺乏大型分段训练视频数据集的问题,我们采用两阶段方案,在合成生成的图像数据上预训练网络,然后对视频数据进行微调。网络架构和培训方案经过精心设计,可充分利用传播和检测线索。因此,网络在没有任何在线学习或后处理的情况下运行稳健,从而在测试时间带来巨大的效率。我们的方法不仅在公共基准数据集上实现了最先进的性能,而且比以前依赖于在线学习的方法运行得更快。并且还通过消融和附加研究对每个组件的影响提供广泛的实验分析和评估。
图3: 消融模型和完整模型的结果 训练阶段,首先利用静态图像数据集对模拟样本进行训练,然后对视频分割数据进行微调。模拟样本的预训练。在第一阶段,我们使用具有实例对象掩码(Pascal VOC [10,14] 、ECSSD [34] 和MSRA 10K [8] )的图像数据集来模拟训练样本对于双流编码器,我们需要包含相同对象的参考和目标帧数据。为了自动生成训练样本,使用以下两种策略。
图4: 从静态图像自动生成的训练样本。我们有两种不同的策略来生成训练样本 对前景对象进行随机变换,然后将变换后的前景图像与背景图像混合生成一对图像。我们使用显著性检测数据集 [34,8] 来分割前景对象,并使用Pascal VOC数据集 [10,14] 来分割背景图像。此外,我们使用背景图像中的对象遮罩(例如,目标图像中的蝴蝶(图3) 被人堵塞)。
图5:重复训练。我们计算每一个时间步的训练损失,并用BPTT更新我们的模型 文献证明了Siamese编解码器网络在没有在线学习和后处理的情况下,经过两级训练的网络达到了当前最先进的性能,比可比方法快得多。这个问题有几个未来的方向。模型足够灵活和快速,允许用户更改参考系,也有兴趣将该方法扩展为交互式。 |
毕 业 设 计(论 文)开 题 报 告
|
四、研究工作步骤及进度 (1) 准备阶段 阅读相关文献,熟悉环境,翻译文献,完成开题报告撰写。 (2) 中期阶段 整理出关于半监督视频目标分割的相关构思,提交设计方案与算法思路,中期检查。 (3) 后期阶段 编程实现,调试与优化程序,整理程序运行结果,撰写毕业论文,准备PPT答辩稿。 五、参考文献 [1] Fast Video 2018 Wug Oh, Seoung, et al. 'Fast video object segmentation by reference-guided mask propagation.' Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [2] 顾菘视频目标的跟踪与分割的理论和方法研究D]电子科技大学, 2016. [3] Federico Perazzi, Anna Khoreva, Rodigo B enenson, Bemt Schiele, Alex anderSorlinehonmung Leaming Video Object Segmentation from Static Im ages[J]. In Procee dingsof the IEEE C onference on C cmputer Vision and P attern Recognition, 2017 :2663-2672. [4] Brostow G J, Fauqueur J, Cipolla R. Semantic objet elasses in video: A high-detinitionground truth database[J]. Pattern Recognition Letters, 2009, 30(2): 88-97. [5] S. Caeles, K. K. Maninis, J. Ponttuset, L. Lealtaize, D. Cremers, L. Van Gool. One Shot VideoObject Segmentation[J]. In Proceedings of the IEEE conference on computer vision andpattem recogrition 2017: 221-230. [6] Jingchun Cheng, Yi Hsuan Tsai, Shengin Wang Ming Hsuan Yang. SegF1ow: J oint Leamingfor Video Obj ect Segm entati on and Optical Flow[]- In Proceedings of the IEEE int emati onalconference on computer vision, 2017 :686-695. [7] Alon Faltor, Michal Irani. Video segm entation by non-local consensus voting[J]. BMVC 2014- Proceedings of the British Machine Vison с anference 2014, 2751-2764 [8] Fuxin Li, Taeyoung Kim, Ahmad Hum ayun, David Tsai, James M. Rehg Video s egm entionby Traclking Many Figure-Ground Segments[M]. InProceedings af the IEE IntermationalConference on с cmputer Vision 2013:2192-2199. [9] Xudang Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Weng. Multi-class generativeadver sarial netw orks with the L2 1oss function[]. aelig;Xiv preprint arXiv:1611 .04076, 2016, 5.[3] Anastasios D oulamis, Nikolaos Doulamis, Klimis Ntalaris, Stefanos Kollias. An eficientfully unsupervised video object segmentation scheme using an adaptive neur al-networkclassifier architecture[J]. IEEE Transactions onN eural N etw orks, 2003, 14(3):616-630. [10] Wenguan Wang, Jianbing Shen, Fatih Porikli. Sali ency-aware geodesic video objectsegnentation[C] 2015:3395-3402. [11] 郭继舜.面向自动驾驶的语义分割和日标检测技术[D].电子科技大学.计算机工程与i., 2008, (1): 64-66. [12] Prest A, Leistner C, Civera J, et al. Learning object elass detectors from weaklyannotated video[Cl. Proceedings of the IEEE Conference on Computer Vision andPattern Recognition, 2012: 3282 -3289. [13] Tron R, Vidal R. A benchmark tor the comparison of 3-d motion segmentationalgx rithms[CI. Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, 2007: 1-8. [14] Pont-Tuset J, Perazzi F, Caelles S, et al. The 2017 davis challenge on video objectsegmentation. arXiv preprint arXiv:l 704.(0675, 2017. [15] Xu N, Yang L, Fan Y, et al. YouTube-VOS: A Large -Scale Video Object SegmentationBenchmark. urXiv preprint arXiv:1809.03327, 201 8. [16] Brox T, Malik J. Object segmentation by long term analysis of point trajetorieslCl.European conference on computer vision. Springer, Berlin, Heidelberg, 2010: 282-295 |
