- 文献综述(或调研报告):
如今已是AI时代,深度学习也成为了时下的热门技术之一。深度学习技术活跃在语音识别、计算机视觉、自然语言处理等其他领域[1],[2],[3],通过构建深度神经网络,进行推断和训练来使计算机具有其强大的学习能力,结合其强大的运算能力,可以处理以前望而止步的复杂问题。语义分割作为计算机视觉的关键问题之一,在场景理解问题上起到了至关重要的作用。
自从FCN(全卷积网络)推出后[4],[5],[6],将语义分割问题引向了一个新高度,对于实现更好的语义分割的模型研究也成为了热门。我将根据研究,从概念、模型架构、评价指标、发展方向四个方面来阐述。
- 语义分割概念阐述
语义分割对图像理解的意义,就和读句子要先断句一样。图像中的“人”、“树”、
“车”就相当于句子中的“主语”、“谓语”、“介词”等等。将图像中的物体分割出来,才能够帮助计算机进一步理解图像的内容。语义分割,总得来说,就是向深度网络输入一张图片,网络经过一系列计算和处理后,输出一张用不同颜色表示不同物体的色图,就好比一个句子被用不同颜色的笔划出不同组成部分一样。
语义分割是一个由粗到细的处理过程,首先对输入做一个分类预测;然后是定位和检测,获取不同类别空间位置的信息;最后对每个像素点进行密集预测实现细粒度推断,使得同一封闭空间区域的像素均被标注为同一类,从而完成整个图像的分割。
- 语义分割的模型架构
自深度学习开始发展起来,语义分割技术也在一年一年的提高。我将按时间顺序介绍几个重要的语义分割模型架构,包括它们的主要贡献。另外,在PASCAL-VOC2012数据集上的得分依次为67.2(FCN)[4],59.9(SegNet)[7],79.7(DeepLabv1amp;v2)[8],85.7(Deeplabv3)[9],可以看到这些网络在不断地完善结构,以提高模型的最佳性能。
-
- FCN(全卷积网络)
FCN 网络是传统 CNN 的扩展,主要思想是使传统 CNN 可以输入任意大小的图像。传统 CNN 只能接受特定大小的输入的原因在于全连接层是固定的。相反,FCN 仅使用卷积和池化层,使得网络可以对任意大小的输入进行预测。
主要贡献:①提出了端到端的全卷积网络
