西湖大学工学院李子青实验室,在人工智能基础研究层面关注的核心问题之一为图数据的深度网络建模。相对于图像,图(Graph)是更加广泛的数据结构,其在社交网络、分子药物、时空动力学系统等诸多领域都有所应用。
李子青实验室近日于图神经网络方向的研究有所进展与收获,关于图自监督学习(Graph self-supervised learning)的最新综述“Self-supervised on graphs: Contrastive, generative, or predictive”被数据挖掘顶级期刊 IEEE Transactions on Knowledge and Data Engineering(TKDE)接收。西湖大学2020级博士研究生吴立荣是本文第一作者,西湖大学讲席教授李子青为通讯作者。
论文链接:https://arxiv.org/abs/2105.07342
汇总了Github代码,之后会定期持续更新图自监督学习相关的工作:
https://github.com/LirongWu/awesome-graph-self-supervised-learning
近年来,图上的深度学习已经成为人工智能领域的一个热门研究课题,然而大多数工作都集中在有监督或半监督学习的设置下,即通过特定的下游任务和丰富的标记数据来训练模型,而这些数据往往是有限的、昂贵的和不可获取的。由于严重依赖标签的数量和质量,这些监督或半监督方法很难适用于现实世界,特别是那些需要专家知识进行注释的场景,如医学、气象学等。更重要的是,这些方法容易出现过拟合、泛化性差、鲁棒性弱等问题。
自监督学习的发展为
减少对标签的过度依赖
,实现在大量无标注数据上的训练提供了新的见解。自监督学习的主要目标是通过精心设计的代理任务,从丰富的无标签数据中学习可迁移的知识,然后将学到的知识迁移到具有特定监督信号的下游任务中。最近,自监督学习在计算机视觉和自然语言处理领域的各项任务上都取得了令人惊喜的结果,然而图上的自监督学习还没有得到充分的探索,许多重要的问题仍有待解决。
与图像和文本数据相比,自监督学习在图域的应用具有重要意义和巨大的潜在研究前景。首先,除了节点特征和部分已知的标签,图数据包含了揭示节点连接性的图结构,可以设计大量的代理任务来同时捕捉节点间潜在的语义关系。其次,现实世界的图通常是按照特定的规则形成的,例如,分子图中原子之间的连接受价键理论约束。
因此,大量相关的领域知识可以作为先验被纳入到代理任务的设计中。
最后,图结构数据一般支持归纳学习,如节点分类任务,这意味着在训练过程中,训练、验证和测试的样本特征都是可见的,这使得设计更多与特征相关的代理任务成为可能。
然而,这并不意味着现有的用于图像或文本的自监督技术可以直接迁移到图域中,欧几里得数据和非欧几里得数据的内在差异,使得设计适用于图的自监督技术仍然非常具有挑战性。
首先,图像的拓扑结构是固定的网格,文本是简单的序列,而图则不限于这些刚性结构。
其次,与图像和文本中数据的独立同分布假设不同,图中的节点是相互关联的,而不是完全独立的。这启发我们通过同时考虑节点属性和图结构来设计合适的代理任务。
最后,由于自监督代理任务和下游任务的优化目标之间存在着差异,这种差异可能导致“负迁移”,将极大地损害模型的泛化性。因此,重新考虑代理任务的优化目标以使其更好地匹配下游任务的优化目标,并使它们相互一致是至关重要的。
在本综述中,我们扩展了最早出现在计算机视觉和自然语言处理领域的自监督学习概念,对现有的图自监督学习技术进行了及时和全面的回顾。具体来说,我们将现有方法分为三类:
对比性的、生成性的和预测性的
,如下图所示:
对比式方法:
对比式方法一般通过各种的数据增广方式,为数据集中的每个实例生成多个视图。从同一实例中生成的两个视图通常被认为是一个正样本对,而从不同实例中生成的两个视图则被认为是一个负样本对。对比学习的主要目标是最大化两个联合采样的正样本对的一致性,最小化两个独立采样的负样本对的一致性。根据视图的定义,视图的尺度可能是局部的、上下文的或全局的,对应于图中的节点层次、子图层次或图层次信息。因此,对比性学习可能会在相同或不同的尺度上对两个视图进行对比 ,这导致了两个类别:
(1)同尺度对比;(2)跨尺度的对比
。同尺度对比中的两个视图,无论是正样本对还是负样本对,都处于同一尺度,而跨尺度对比中的两个视图具有不同的尺度,如节点-子图或节点-图对比。
表 3 对比式方法,包括同尺度对比和跨尺度对比两个类别
生成式方法:
生成式方法关注图数据内部的信息,一般基于特征/结构重构等代理任务,利用图本身的特征和结构作为监督信号。与对比式学习相比,生成式学习通常基于生成模型,将图数据本身的丰富信息作为一种自然的监督信号。按照重建的方式分类,我们将生成式方法总结为两类:(1)图自编码,以once-for-all的方式重建给定图数据的某些部分,如被掩码的特征或被破坏的邻接矩阵;(2)图自回归,给定部分图信息如属性或结构,然后以迭代的方式重建其余部分。
预测式方法:
预测式方法通过一些简单的统计分析或专家知识预生成伪标签,然后根据生成的伪标签设计基于预测的代理任务。对比式学习方法处理的是
数据间(inter-data)
的信息,生成式方法关注的是
数据内(intra-data)
的信息,而预测式方法的目的是将数据中的信息标签(self-generate informative labels)作为监督信号来处理
数据-标签(data-label)
的关系。按照标签的获取方式不同,我们将预测式方法总结为四类:
(1) 节点属性预测。
节点的属性,如节点度,被预先计算并作为自监督的标签来执行预测任务;
(2) 基于上下文的预测。
图中的局部或全局上下文信息可以被提取出来作为标签来辅助自监督学习,例如,通过预测节点之间的最短路径长度,模型可以捕捉到长距离的依赖关系,这有利于如链接预测等下游任务;
(3) 自训练。
用前一阶段的预测或聚类得到的伪标签进行学习,然后对伪标签进行迭代更新;
(4) 基于领域知识的预测。
提前使用领域知识或专门工具,如价键理论,来分析图数据(如生物或化学数据)以获得信息标签。
表 4 预测式方法,包括节点属性预测、上下文预测、自训练
和基于域知识预测这四个类别
进一步,本文对
图自监督领域面临的许多挑战
进行了归纳总结,包括复杂类型图的代理任务设计、缺乏理论基础、增广策略研究不足、缺乏可解释性及预训练与下游任务的分歧。
目前大多数图自监督的工作都集中在属性图上,而对其他更复杂、更有挑战性的图类型,如时空和异构图,进行探索的工作还很少。目前,大多数的代理任务只利用节点或边的特征,这限制了它们挖掘图中其它丰富信息的能力,如时空图中的时序信息和异构图形中的关系信息。
尽管图自监督学习在各种任务上取得了巨大的成功,但它们大多借鉴了自监督在CV和NLP领域的成功经验。换句话说,大多数现有的图自监督方法都是凭直觉设计的,它们的性能提升是通过经验实验来评估的。设计背后缺乏足够的理论基础,导致了潜在的性能瓶颈和可解释性差的问题。因此,从图论的角度为图自监督建立一个坚实的理论基础,尽量缩小理论基础和经验设计之间的差距也是一个有前景的研究方向。
最近在视觉表征学习领域的进展主要归功于各种数据增广策略,如调整大小、旋转、着色等。然而,由于图数据固有的非欧几里得性质,现有的基于图像的数据增广很难被直接应用于图数据。此外,目前大多数图上的数据增广策略仅限于添加/删除节点和边或它们的组合,以此实现所谓的最优性能。为了进一步提高图上自监督学习的性能,设计更有效的增广策略或为特定的下游任务自适应地进行增广是一个有前景的方向。
虽然现有的图自监督方法在各种下游任务上取得了优异的成绩,但我们仍然不知道自监督任务到底学到了什么?特征模式、重要结构还是特征-结构关系?这种学习是显性的还是隐性的?是否有可能在输入数据上找到可解释的对应关系?这些都是理解和解释模型行为的重要问题,但在目前的图自监督相关的工作中却缺失了。
用自监督任务进行预训练,然后将预训练的模型用于特定的下游任务,通过微调或冻结权重,是图自监督中常见的训练策略 。然而,我们应该如何将预训练好的知识转移到下游任务中去呢?尽管在CV和NLP领域已经提出了大量的策略来解决这个问题,但由于图数据固有的非欧几里得结构,它们很难直接应用于图数据中。因此,如何设计针对图的技术,使预训练和下游任务之间的优化分歧最小化,是一个重要问题。
Yann Lecun 曾在演讲中以“蛋糕类比”来说明自监督学习,他在演讲中说:“If intelligence is a cake, the bulk of the cake is self-supervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).”
尽管这个说法存在争论,但毋庸置疑的是,自监督学习必将在深度学习的各个领域大放异彩。在大数据时代,限制算法性能的首要因素是可用的标注数据的数量和质量。图自监督学习通过精心设计的代理任务,从丰富的无标签数据中学习可迁移的知识,然后将学到的知识迁移到具有特定监督信号的下游任务中,这极大地减少了图算法对标签的过度依赖。本综述对现有的图自监督学习技术进行了及时且全面的回顾,为图自监督学习的未来发展及其在其它图相关领域中的应用打下了一个良好的基础。