CVPR2020论文解读：三维语义分割3D Semantic Segmentation

相关文章推荐

有情有义的枇杷 · Vue中引入jQuery - 永不言弃！ ...· 8 月前 ·

挂过科的树叶 · PaddleOCR，一款文本识别效果不输于商 ...· 1 年前 ·

粗眉毛的创口贴 · POST a binary data ...· 1 年前 ·

风流倜傥的玉米 · Java入门系列之线程池ThreadPool ...· 1 年前 ·

帅气的匕首 · RecyclerView 使用总结 - 简书· 1 年前 ·

无监督域自适应（ UDA）对于解决新域中缺少注释的问题至关重要。有许多多模态数据集，但大多数 UDA方法都是单模态的。在这项工作中，我们探索如何从多模态学习，并提出跨模态 UDA（ xMUDA），其中我们假设存在二维图像和三维点云进行三维语义分割。这是一个挑战，因为这两个输入空间是异构的，并且可能受到域移动的不同影响。在 xMUDA中，模态通过相互模仿相互学习，脱离分割目标，防止强模态采用弱模态的错误预测。利用最近的自动驾驶数据集，评估新的 UDA方案，包括白天到晚上、国家到国家和数据集到数据集。 xMUDA在所有测试场景上都比单峰 UDA有很大的改进，并且是对最新 UDA技术的补充。

Unsupervised Domain Adaptation.

在过去的几年中，人们对无监督的领域适应技术越来越感兴趣，这些技术可以用于复杂的感知任务，如目标检测和语义分割。

虽然大多数现有的作品考虑的是 2D世界中的 UDA，但很少有人处理 3D世界中的 UDA。吴等人 [32]在激光雷达点云的三维分割中，对 UDA采用了激活相关对齐 [19]。在这项工作中，本文研究了相同的任务，但不同的是：系统对多模态输入数据（即 RGB+LiDAR）进行操作。

在多模态场景的 2D/3D语义分割方面，目前还没有 UDA的研究成果。只有一些人考虑到额外的模式，例如深度，仅在源域上的训练时间可用，并利用这些特权信息来提高适应性能。否则，这里假设所有模式在训练和测试时间在源域和目标域上都可用。

Multi-Modality Learning.

在有监督的设置中，通过融合来自多个源的特征，可以自然地提高性能。几何上最简单的情况是 RGB深度融合与密集的像素到像素的二维分割对应 [9， 26]。将三维点云与二维图像融合起来比较困难，因为它们生活在不同的度量空间中。一种解决方案是将二维和三维特征投影到“鸟瞰图”中进行目标检测 [18]。另一种可能性是将多视图图像中的二维特征提升到三维点云，以实现三维语义分割的二维 -三维联合处理 [23、 14、 3]。本文更接近于上一系列的工作：共享三维语义分割的相同目标。然而，我们关注的是如何利用多模态来代替有监督的学习，并且只使用单视图图像及其对应的点云。

3D networks for semantic segmentation.

虽然图像是稠密的张量，但三维点云可以用多种方式表示，从而导致相互竞争的网络族并行演化。体素与像素非常相似，但由于大多数体素是空的，因此记忆非常强烈。 Graham等人 [8] 类似的实现 [4]通过使用哈希表仅对活动体素卷积来解决这个问题。这允许非常高的分辨率，通常每个体素只有一个点。基于点的网络在连续的三维空间中执行计算，因此可以直接接受点云作为输入。 PointNet++[21]使用逐点卷积、最大池来计算全局特征和局部邻域聚集，用于类似 CNN的分层学习。在这方面已经提出了许多改进，如连续卷积 [29]和可变形核 [24]。基于图的网络卷积在点云的边上 [30]。在这项工作中，本文选择 Sparse ConvNet[8]作为 3D网络，这是 ScanNet基准上的最新技术 [5]。

3.xMUDA

跨模态 UDA（ xMUDA）的目的是通过在模态之间进行受控信息交换来利用多模态，使模态之间相互学习。在下面，我们定义了基本的监督学习设置，我们的跨模态损失 LxM，和附加的伪标签学习方法。 loss流量如图 3所示。

Supervised Learning

可以将每个网络流（ 2D和 3D）的分段损失 Lseg写为：

Cross-Modal Learning

跨模式无监督学习的目标有两个。首先，我们要在目标数据集上将知识从一种模式转移到另一种模式。其次，要在源和目标上设计一个辅助目标，任务是估计其他模态的预测。

选择交叉模块 LxM的 KL发散角，并按如下定义：

每个网络流（ 2D和 3D）的完整优化目标是源上的分段损失 Lseg和源上和目标上的交叉模块 LxM的组合：

Self-training with Pseudo-Labels

跨模态学习是对伪标记策略 [15]的补充，伪标记策略最初用于半监督学习，最近用于 UDA[17， 34]。具体来说，一旦用公式 4优化了一个模型，我们就提取出伪标签，根据预测的类别概率选择高度机密的标签。然后，使用生成的伪标签从头开始训练，以便在目标训练集上附加分段损失。实际上，优化问题：

4. Experiments

在三个提出的跨模态 UDA方案上评估 xMUDA，并与 art-uni-modal UDA方法的状态进行比较 [17]。表 1报告了在 3个 UDA方案的目标测试集上 3D分割的平均交并（ mIoU）

定性结果如图 6所示，显示了 xMUDA在所有拟议 UDA方案中的通用性。图 7描绘了各个 2D/3D输出，以说明它们各自的强项和弱点，例如，在夜间 3D的工作比 2D好得多。本文还提供了 A2D2到 semanickittiscenariottp://tiny.cc/xmuda的视频。

Extension to Fusion

前面展示了如何使用 xMUDA改进每种成像方式，因此， softmax平均值也随之增加。然而，如何通过二维和三维特征融合来获得尽可能好的效果呢？

一种常见的融合架构是后期融合，其中来自不同来源的特征被连接起来（参见图 4a）。然而，对于 xMUDA，需要在特征中独立于模态，否则模拟任务变得微不足道。因此，本文提出 xMUDA融合（参见图 4b），其中每个模态具有用于模拟融合预测的单模态预测输出。

5. Conclusion

提出 xMUDA，跨模态无监督域自适应，其中模态相互学习以提高目标域上的性能。设计了一个具有独立主头和模拟头的体系结构，从跨模态学习目标中分离出分段。在新的 UDA场景下利用 2D/3D数据集进行 3D语义分割的实验表明， xMUDA在很大程度上优于单峰 UDA，是对伪标签策略的补充。在融合过程中观察到模拟性能的提高。跨模态学习在很多场合和任务中都是有用的，不仅仅限于 UDA。特别是，它应该有利于监督学习和其他方式，而不是图像和点云。

人工智能芯片与自动驾驶