兴奋之余,我们禁不住要问,现阶段真的具备研究预训练GNN的条件吗,成功的预训练模型需要具备什么前置条件?以下是笔者自己的总结:
表中仅列出代表性内容,不一定完整。对比分析可知,目前研究预训练GNN的条件尚未完全满足,如尚未明确图中什么知识是可迁移的,因为不同图的结构千差万别,而且目前深层GNN虽有研究但仍未带来革命性的提升。幸运的是,图机器学习社区已经积累了大规模的图数据,并且已经发展出诸如图重构的自监督训练方法。笔者认为,预训练GNN的研究恰逢其时,将来与深层GNN、表达能力更强的GNN等研究路线会合终可实现泛用性强的GNN。
前文提及自监督学习,但尚未解释其含义及其与预训练的联系,下面根据个人理解做简单的概念澄清。
由表分析可知,有监督和无监督方法均可对模型进行预训练,考虑到实际情况标注数据少,而图本身有丰富的结构和属性信息可以提供监督信息,因此,自监督学习在图上大有可为。自监督学习是一个正在蓬勃发展的领域,当前主要有 两大研究范式 :基于重构的生成式方法,最大化正例对与负例对差异的对比学习。恰巧,对比学习也是图自监督学习研究最多成效最显著的一个技术路线。
另一方面,自监督学习其实是一种通用的学习方法,不限于预训练,但是两者有共通之处,以下试图将两者统一起来考虑。
笔者从预训练GNN和自监督GNN两方面收集文献。专门的预训练GNN论文尚少,如下表所示:
自监督GNN的研究较多,选取近年较重要的文章如下
从上面文献可以看出预训练/自监督的关键在于定义自监督任务,主流为对比学习(阅读文献细节可知,很多参考了图像领域的对比学习方法),而对比学习的关键在于正例对和负例对的构造,以下总结了目前的构造方法:
因为涉及条件概率 \(p(x|y)\) 互信息难以计算,产生了一系列的估计子,如 MINE , infoNCE ,两者均被证明为互信息的下界,通过最大化下界限间接优化互信息。infoNCE的表达式如下
其中 \(f_\theta\) 为似然比 \(\frac{p(x|y)}{p(x)}\) 的神经网络估计子。形式上看,损失函数的每一项包含1各正例和 \(K\) 个负例,与网络嵌入中的负采样有异曲同工之妙
可以看到,当前受对比学习启发,预训练/自监督GNN已经有了相当进展,但应该注意到,目前的自监督任务定义均比较直观,如果图重构等,缺少对图的子结构的探索。图自监督学习将进入深水区,基于图论和经典图数据分析定义新的自监督任务,学习更多的可迁移知识。目前已经有 ICLR 2021投稿论文 探索了基于motif的预训练方法,不过很不幸被拒了。此外,深层GNN和GNN表达能力方面的探索也值得期待。