无监督域自适应(
UDA)对于解决新域中缺少注释的问题至关重要。有许多多模态数据集,但大多数
UDA方法都是单模态的。在这项工作中,我们探索如何从多模态学习,并提出跨模态
UDA(
xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割。这是一个挑战,因为这两个输入空间是异构的,并且可能受到域移动的不同影响。在
xMUDA中,模态通过相互模仿相互学习,脱离分割目标,防止强模态采用弱模态的错误预测。利用最近的自动驾驶数据集,评估新的
UDA方案,包括白天到晚上、国家到国家和数据集到数据集。
xMUDA在所有测试场景上都比单峰
UDA有很大的改进,并且是对最新
UDA技术的补充。
Unsupervised Domain Adaptation.
在过去的几年中,人们对无监督的领域适应技术越来越感兴趣,这些技术可以用于复杂的感知任务,如目标检测和语义分割。
虽然大多数现有的作品考虑的是
2D世界中的
UDA,但很少有人处理
3D世界中的
UDA。吴等人
[32]在激光雷达点云的三维分割中,对
UDA采用了激活相关对齐
[19]。在这项工作中,本文研究了相同的任务,但不同的是:系统对多模态输入数据(即
RGB+LiDAR)进行操作。
在多模态场景的
2D/3D语义分割方面,目前还没有
UDA的研究成果。只有一些人考虑到额外的模式,例如深度,仅在源域上的训练时间可用,并利用这些特权信息来提高适应性能。否则,这里假设所有模式在训练和测试时间在源域和目标域上都可用。
Multi-Modality Learning.
在有监督的设置中,通过融合来自多个源的特征,可以自然地提高性能。几何上最简单的情况是
RGB深度融合与密集的像素到像素的二维分割对应
[9,
26]。将三维点云与二维图像融合起来比较困难,因为它们生活在不同的度量空间中。一种解决方案是将二维和三维特征投影到“鸟瞰图”中进行目标检测
[18]。另一种可能性是将多视图图像中的二维特征提升到三维点云,以实现三维语义分割的二维
-三维联合处理
[23、
14、
3]。本文更接近于上一系列的工作:共享三维语义分割的相同目标。然而,我们关注的是如何利用多模态来代替有监督的学习,并且只使用单视图图像及其对应的点云。
3D networks for semantic segmentation.
虽然图像是稠密的张量,但三维点云可以用多种方式表示,从而导致相互竞争的网络族并行演化。体素与像素非常相似,但由于大多数体素是空的,因此记忆非常强烈。
Graham等人
[8] 类似的实现
[4]通过使用哈希表仅对活动体素卷积来解决这个问题。这允许非常高的分辨率,通常每个体素只有一个点。基于点的网络在连续的三维空间中执行计算,因此可以直接接受点云作为输入。
PointNet++[21]使用逐点卷积、最大池来计算全局特征和局部邻域聚集,用于类似
CNN的分层学习。在这方面已经提出了许多改进,如连续卷积
[29]和可变形核
[24]。基于图的网络卷积在点云的边上
[30]。在这项工作中,本文选择
Sparse ConvNet[8]作为
3D网络,这是
ScanNet基准上的最新技术
[5]。
3.xMUDA
跨模态
UDA(
xMUDA)的目的是通过在模态之间进行受控信息交换来利用多模态,使模态之间相互学习。在下面,我们定义了基本的监督学习设置,我们的跨模态损失
LxM,和附加的伪标签学习方法。
loss流量如图
3所示。
Supervised Learning
可以将每个网络流(
2D和
3D)的分段损失
Lseg写为:
Cross-Modal Learning
跨模式无监督学习的目标有两个。首先,我们要在目标数据集上将知识从一种模式转移到另一种模式。其次,要在源和目标上设计一个辅助目标,任务是估计其他模态的预测。
选择交叉模块
LxM的
KL发散角,并按如下定义:
每个网络流(
2D和
3D)的完整优化目标是源上的分段损失
Lseg和源上和目标上的交叉模块
LxM的组合:
Self-training with Pseudo-Labels
跨模态学习是对伪标记策略
[15]的补充,伪标记策略最初用于半监督学习,最近用于
UDA[17,
34]。具体来说,一旦用公式
4优化了一个模型,我们就提取出伪标签,根据预测的类别概率选择高度机密的标签。然后,使用生成的伪标签从头开始训练,以便在目标训练集上附加分段损失。实际上,优化问题:
4. Experiments
在三个提出的跨模态
UDA方案上评估
xMUDA,并与
art-uni-modal UDA方法的状态进行比较
[17]。表
1报告了在
3个
UDA方案的目标测试集上
3D分割的平均交并(
mIoU)
定性结果如图
6所示,显示了
xMUDA在所有拟议
UDA方案中的通用性。图
7描绘了各个
2D/3D输出,以说明它们各自的强项和弱点,例如,在夜间
3D的工作比
2D好得多。本文还提供了
A2D2到
semanickittiscenariottp://tiny.cc/xmuda的视频。
Extension to Fusion
前面展示了如何使用
xMUDA改进每种成像方式,因此,
softmax平均值也随之增加。然而,如何通过二维和三维特征融合来获得尽可能好的效果呢?
一种常见的融合架构是后期融合,其中来自不同来源的特征被连接起来(参见图
4a)。然而,对于
xMUDA,需要在特征中独立于模态,否则模拟任务变得微不足道。因此,本文提出
xMUDA融合(参见图
4b),其中每个模态具有用于模拟融合预测的单模态预测输出。
5. Conclusion
提出
xMUDA,跨模态无监督域自适应,其中模态相互学习以提高目标域上的性能。设计了一个具有独立主头和模拟头的体系结构,从跨模态学习目标中分离出分段。在新的
UDA场景下利用
2D/3D数据集进行
3D语义分割的实验表明,
xMUDA在很大程度上优于单峰
UDA,是对伪标签策略的补充。在融合过程中观察到模拟性能的提高。跨模态学习在很多场合和任务中都是有用的,不仅仅限于
UDA。特别是,它应该有利于监督学习和其他方式,而不是图像和点云。
人工智能芯片与自动驾驶