一文带你读懂全景分割-电子发烧友网

图像分割（image segmentation）是根据灰度、色彩、空间纹理、几何形状等特征将图片分成若干个特定的、具有独特性质的区域，并提出感兴趣目标的威廉希尔官方网站和过程。

目前图像分割发展出以下几个子领域：

语义分割（semantic segmentation）

是将输入图像中的每个像素点预测为不同的语义类别。更注重类别之间的区分，会重点将前景里的车辆和背景里的房屋、天空、地面分割开，但是不区分重叠车辆。主要有FCN，DeepLab，PSPNet等方法。

实例分割（instance segmentation）

是目标检测和语义分割的结合，将输入图像中的目标检测出来，对目标包含的每个像素分配类别标签。更注重前景中目标个体之间的分割，背景的房屋、天空、地面均为一类。主要有DeepMask，Mask R-CNN，PANet等方法。

全景分割（panoptic segmentation）

是语义分割和实例分割的综合，旨在同时分割实例层面的目标（thing）和语义层面的背景内容（stuff），将输入图像中的每个像素点赋予类别标签和实例ID，生成全局的，统一的分割图像。

01 全景分割的应用与发展

从输入数据上分类，全景分割可以分为基于RGB图像的全景分割和基于点云数据的全景分割。

基于RGB图像的全景分割算法可以分为三类。

1.box-based，thing和stuff使用不同的分支预测，其中thing的分割基于目标检测boxes。

如Panoptic FPN模型，首先进行特征提取，然后接两个分支分别预测实例分割和语义分割。其中实例分割分支的预测过程是先预测出实例的boxes，再在每个box的范围内预测出对应的实例分割，所以box-based的全景分割最终的预测结果主要取决于boxes的预测精度。语义分割分支直接预测输出结果。最后融合两个分支结果得到全景分割。

由于通过两个分支分别预测thing和stuff，会导致出现两个分支预测结果有重合区域，后处理去重过程和NMS比较类似：

(1)根据不同thing的置信度来去除重叠部分；

(2)以thing优先原则去除thing和stuff之间的重叠部分；

(3)去除stuff标记为“其他”或者低于给定面积阈值的区域。

上述模型中

使用FPN（Feature Pyramid Network）特征金字塔网络作为主干网络。使用一个标准的网络提取多个空间位置的特征，再在网络的最高层开始上采样并和对应的特征提取网络横向连接，生成多个尺度的特征图，从而获得多尺度的语义信息。

因为网络高层的特征虽然包含了丰富的语义信息，但是由于低分辨率，很难准确地保存物体的位置信息。与之相反，低层的特征虽然语义信息较少，但是由于分辨率高，就可以准确地包含物体位置信息，所以通过融合这些不同层的特征能达到识别和定位更准确的预测效果。

FPN可以应用到各种网络模型，提升模型效果。如目标检测模型Faster R-CNN，实例分割模型Mask R-CNN，以及下述全景分割网络Panoptic FCN。

特征金字塔网络

2.box-free，thing和stuff使用不同的分支预测，先预测语义再生成实例，不需要先进行目标检测。

如Panoptic-DeepLab模型，去除了Panoptic FPN的box预测部分，直接预测出thing和stuff。为了得到目标实例预测，在实例分割分支同时预测了每个实例的中心点及其heatmap，得到像素点与实例关键点之间的关系，并依此融合形成类别未知的不同实例，另外语义分割分支直接预测输出，最后结合两个分支输出得到全景分割的结果。

与box-based方法相比，去除了boxes预测步骤，推理速度更快，减少了由于boxes的限制对分割精度的影响。

3.thing和stuff完全使用相同的结构进行预测，如Panoptic-FCN。

Panoptic FCN是将thing和stuff统一成特征描述子（kernels）来进行预测。主要由FPN、Kernel Generator、Kernel Fusion和Feature Encoder四个部分组成。

先通过FPN得到多尺度特征图，对每个特征图的thing和stuff生成kernels权重，然后通过Kernel Fusion对多个特征图的kernels权重进行合并。

Kernel Generator由Kernel Head和Position Head两个分支构成，首先同时预测thing和stuff的位置，其中，thing通过预测中心点（cente rs)来定位和分类，stuff通过预测区域（regions）来定位和分类，然后根据thing和stuff的位置，从Kernel Head中产生kernels权重。Feature Encoder用来对高分辨率特征进行编码，最后将得到的kernels权重和编码特征融合得到最终预测结果。

上述的box-based和box-free全景分割都是将thing和stuff拆分成两个分支来进行预测的，这必然会引入更多的后处理还有设计不同分支信息融合的操作，使得整个系统既冗余又复杂。

Panoptic FCN实现了真正的端到端全景分割，省去了子任务融合的操作，推理速度快，效果好。