Figure
1.
The
proposed
Category
Contrast
trains
an
unsupervised
domain
adaptive
encoder
by
matching
a
query
q
(from
an
unlabelled
target
sample
x
q
∈
X
t
)
to
a
dictionary
of
keys
via
a
category
contrastiv
e
loss
L
CatNCE
.
The
dictionary
ke
ys
are
domain-mixed
from
both
source
domain
X
s
(in
red
with
labels)
and
target
domain
X
t
(in
blue
with
pseudo
labels),
which
allows
to
learn
inv
ariant
representations
within
and
across
the
two
domains.
They
are
also
category-ware
and
category-balanced
allo
wing
to
learn
cate
gory-discriminativ
e
yet
category-unbiased
representations.
Note
the
cate
gory-balanced
means
that
each
query
q
is
compared
with
all
the
dictionary
k
eys
(in
loss
computation)
that
are
ev
enly
distributed
over
all
data
categories
which
mitigates
data
imbalance
issue.
0
分类域混合字典
0
当前数据入队
0
编码器
0
0
编
器
0
编码器
0
编码器
0
编码器
0
0
最旧数据出
队
0
最新数据入队
0
编码
器
0
0
0
相似度
0
0
编
码
器
0
0
最旧数据出队
0
0
动量编码器
0
0
编码器
0
因此,网络学习将努力最小化目标查询和字典键之间的类别
对比损失LCatNCE:相同类别的样本被拉近,而不同类别的
样本被推开。这自然地导致了既具有类别判别性又具有域不
变性的表示,完全符合UDA的目标。
0
通过具有类别感知和域混合的字典以及类别对比损失,提出
的Category
Contrast具有三个理想特征来解决UDA挑战:1)通过类别
感知的字典设计同时最小化类内变异和最大化类间距离;2
)通过包含源样本和目标样本的域混合字典设计实现跨域和
域内对齐;3)通过类别平衡的字典设计大大减轻了数据平
衡问题,允许在学习过程中均匀计算所有类别的对比损失。
0
我们总结了本文的贡献如下:(1)我们探索了UDA中的实例
对比,旨在学习未标记目标域样本的判别表示。(2)我们提出
了类别对比,通过使用类别对比损失构建一个具有类别感知
和域混合的字典。它鼓励学习既具有类别判别性又具有域不
变性的表示,完全符合UDA的目标。(3)大量实验证明,与
现有技术相比,我们的CaCo始终实现了卓越的UDA性能。
此外,CaCo补充了以前的UDA方法,并推广到涉及未标记
数据的其他学习设置。
0
2.相关工作
0
这项工作涉及两个主要研究领域,即无监督域适应中的无监督学习和无
监督表示学习中的实例对比。无监督域适应旨在利用未标记的目标数据
提高目标域中的网络性能。为了从未标记的目标数据中学习,大多数现
有的工作提出了各种无监督损失。我们将它们大致分为三个子类别。第
一个子类别是对抗损失,它通过编码特征[7,16,38,52,62,
75]、生成预测[28,40,51,53,59]或转换潜在表示[29,60,
63]来强制要求目标表示类似于源域。第二个子类别是图像转换损失,它
通过GANs[8,10,36]和频谱匹配[25,
72]生成具有类似于目标样式和外观的源数据。第三个子类别是自训练损
失,它使用伪标记的目标样本迭代重新训练网络[14,24,26,36,64,72,
80,
81]。我们从实例对比学习的新视角来解决无监督域适应问题,并提出了
一种新颖的类别对比(CaCo),引入了一种通用的类别对比损失,适用
于各种无监督域适应任务。据我们所知,CaCo是第一个研究无监督域适
应中实例对比学习的努力。实例对比学习旨在学习一个嵌入空间,其中
正样本靠近锚点,负样本被推开。尽管动机不同,实例对比学习可以被
视为一个字典查找任务,通过将编码查询q与编码键k的字典进行匹配:q
应该与正k相似,与负k不相似。已经提出了三种典型的字典创建策略。
第一种建立了一个存储每个训练时期所有样本键的记忆库[68]。第二种建
立了一个动量编码队列[19],在线收集编码样本作为键。第三种创建了一
个端到端字典[5,58,
73],将当前训练批次的编码样本作为键。使用不同字典的实例对比有助
于学习更好的无监督表示。另一方面,现有的实例对比学习方法[5,19,
42,58,68,
73]是为无监督表示设计的,在无监督域适应中存在两个主要限制:1)
缺乏类别先验知识,现有的实例对比技术学习到了丰富的低级特征,但
没有捕捉到很多高级语义信息。这对于许多视觉识别任务(例如分割、
检测和分类)需要具有区分性语义特征是次优的。最近的研究[56,
61]验证了这个问题;2)大多数现有的实例对比学习方法[5,19,42,58,
68,
73]使用超大/类别不可知的字典,可能会引入类别冲突[56],即负样本共
享相同的语义类别,但在特征空间中被不希望地推开。这影响了大多数
需要语义级别区分的学习设置,包括各种视觉无监督域适应任务。所提
出的CaCo引入了一个混合分类域的字典,引入了类别先验,并有效解决
了这两个问题。其他最近相关的对比学习工作。[35]探索了具有语义分布
的对比学习,并提出了估计的类别中心对每个样本进行对比的语义分布
感知对比适应。[1,
65]探索了基于像素级对比的对比学习,使用记忆库进行监督和半监督语
义分割。