OCRNet

1. 前言

2. Abstract

In this paper, we study the context aggregation problem in semantic segmentation. Motivated by that the label of a pixel is the category of the object that the pixel belongs to, we present a simple yet effective approach, object-contextual representations, characterizing a pixel by exploiting the representation of the corresponding object class

  • 本文研究了语义分割中的上下文聚合问题。提出一个上下文聚合策略—目标上下文表示,将像素所在目标的表示融入像素的表示中

First, we learn object regions under the supervision of the ground-truth segmentation.

Second, we compute the object region representation by aggregating the representations of the pixels lying in the object region.

Last, we compute the relation between each pixel and each object region, and augment the representation of each pixel with the object-contextual representation which is a weighted aggregation of all the object region representations.

  • 首先通过ground-truth分割的监督学习到目标区域;
  • 其次通过融合目标区域的所有像素的表示来计算目标区域的表示;
  • 最后计算像素和目标区域的关系,按其关系强度加权地融合每个区域的表示来增强每个像素的表示。

  • 简单来讲就是,像素的语义是由其目标的语义决定的,因此像素的表示也与其目标的表示相关。如何通过目标的表示来增强像素的语义(表示),该论文使用了类似Attention的思路,关键点是如何计算目标的表示以及如何将目标表示应用到像素表示中

3. Introduction

  • 语义分割任务的两大关键是:分辨率和上下文。因为它是一个密集像素预测任务,因此空间分辨率很重要。其次像素本身不具备语义,它的语义由其图像整体或目标区域决定,因此它对上下文高度依赖

  • 一个像素位置的上下文指的是它周围的像素位置。早期的研究主要关注的是上下文的空间范围,例如ASPP, PPM。最近也有很多工作如DANet, CFNet, OCNet考虑像素与其上下文像素的关系,然后根据它们的关系来进行聚合其表示。

  • 该论文的主要思想也就是像素的类别标签是由它所在的目标的类别标签决定的。主要思路是利用目标区域表示来增强其像素的表示。与之前的考虑上下文关系的方法不同的是,之前的方法考虑的是上下文像素之间的关系,没有显示利用目标区域的特征。

  • OCR 方法的实现主要包括3个阶段:

    First, we divide the contextual pixels into a set of soft object regions with each corresponding to a class, i.e., a coarse soft segmentation computed from a deep network (e.g., ResNet [23] or HRNet [55]).Such division is learned under the supervision of the ground-truth segmentation.

    • 将上下文像素划分为一组soft object regions,每个soft object regions对应一个类,即从深度网络(如ResNet或HRNet)计算得到的粗软分割。这种划分是在ground-truth分割的监督下学习的。根据网络中间层的特征表示估测粗略的语义分割结果作为 OCR 方法的一个输入;即Soft Object Regions

    Second, we estimate the representation for each object region by aggregating the representations of the pixels in the corresponding object region.

    • 根据粗略的语义分割结果和网络最深层的特征表示计算出 K 组向量,即物体区域表示(Object Region Representations),其中每一个向量对应一个语义类别的特征表示

    Last, we augment the representation of each pixel with the object-contextual representation (OCR). The OCR is the weighted aggregation of all the object region representations with the weights calculated according to the relations between pixels and object regions.

    • 计算网络最深层输出的像素特征表示(Pixel Representations)与计算得到的物体区域特征表示(Object Region Representation)之间的关系矩阵,然后根据每个像素和物体区域特征表示在关系矩阵中的数值把物体区域特征加权求和,得到最后的物体上下文特征表示 OCR (Object Contextual Representation) 。
  • 把物体上下文特征表示 OCR 与网络最深层输入的特征表示拼接之后作为上下文信息增强的特征表示(Augmented Representation),可以基于增强后的特征表示预测每个像素的语义类别。

  • 论文给出了一张图说明OCR与ASPP的区别

  • 图2中对比了基于 ASPP 的多尺度上下文信息与基于 OCR 的物体上下文信息的区别
  • 对选定的红色标记的像素,我们用蓝色来标记其对应的上下文信息。可以看到基于 ASPP 的多尺度上下文信息通常会包含不属于红色像素所属类别的像素,左图中采样到的蓝色标记的像素有一部分落在了人的身体上,还有一部分像素落在了后面的展板上。因此,这样的多尺度信息同时包含了物体信息与背景信息。而基于 OCR 的物体上下文信息的目标是只利用物体信息,即显式地增强物体信息

4. Approach

4.1 Background

  • 本小节介绍了ASPP和PSPNet两者的机制及特征提取过程

4.2 Formulation

The proposed object-contextual representation scheme

(1) structurizes all the pixels in image I into K soft object regions,

(2) represents each object region as f k by aggregating the representations of all the pixels in the kth object region, and

(3) augments the representation for each pixel by aggregating the K object region representations with consideration of its relations with all the object regions:

  • OCR(object-contextual representation)的pipeline主要包括三个步骤:

    • 生成K个soft object region。(K是类别数,也就是生成粗分割)
    • 计算每个object region的特征表示。
    • 融合K个object region表示来增强每个像素的表示。(refinement)
  • Soft object regions:K张map,每个表示一个类别的分割图。由backbone生成的中间分割,训练时使用gtmask监督做分类。

  • Object region representations:生成每个类别object region表示 f_k

  • Object contextual representations:计算每个像素和每个区域的关系

  • 计算每个像素OCR的公式3如下所示:
  • Augmented representations:最终的像素表示是两部分的组合,其中g函数如下所述

where g(·) is a transform function used to fuse the original representation and the object contextual representation, implemented by 1 × 1 conv → BN → ReLU.

  • OCR的pipeline如下图所示:

4.3 Architecture

4.4 Empirical Analysis

  • 论文给出了两次实验实证分析:

  • 实验结果

5. Experiments: Semantic Segmentation

  • 有关实验结果及数据详见论文

6. Conclusions

In this work, we present an object-contextual representation approach for semantic segmentation. The main reason for the success is that the label of a pixel is the label of the object that the pixel lies in and the pixel representation is strengthened by characterizing each pixel with the corresponding object region representation. We empirically show that our approach brings consistent improvements on various benchmarks.

-------------The End-------------
谢谢大锅请我喝杯阔乐~