【AI模型安全性专题】模型安全性-图神经网络后门的攻守道

一、摘要
图模型因其强大的表示能力在现实中有着广泛的应用,如欺诈检测、生物医学、社交网络等。由于图结构不具有平移不变性,每一个节点的上下文结构有较大的差异,因此传统的深度学习模型就无法直接应用到图模型上。图神经网络(GNN)可以从图数据中提取相应特征,在尽可能的保证图结构特征的情况下把图数据映射到向量空间中。随着GNN的应用越来越广泛,其安全性也越来越被关注。比如说在信用评分系统中,欺诈者可以伪造与几个高信用客户的联系以逃避欺诈检测模型;垃圾邮件发送者可以轻松地创建虚假的关注者,向社交网络添加错误的信息,以增加推荐和传播重大新闻的机会,或是操控在线评论和产品网站。
GNN模型本身的安全性可粗略的分为两大块:对抗样本与后门攻击。本文针对GNN的后门攻击进行了介绍。
后门(backdoor)在传统软件中比较常见。所谓的后门就是一个隐藏的,不易被发现的一个通道,在某些特殊情况下,这个通道就会显露出来。关于深度学习模型中的后门攻击已有一些研究工作,而关于图模型的后门攻击与防御的相关研究工作还刚起步。GNN模型的后门攻击是希望通过某种方式在GNN模型中埋藏后门,埋藏好的后门通过攻击者预先设定的触发器(trigger)激活。后门未被激活时,被攻击的GNN模型具有和正常GNN模型相同的表现,而当GNN模型中后门被攻击者通过触发器激活时,GNN模型的输出将变成攻击者预期的结果,以此来达到恶意目的。因为图模型本身的特性,通常GNN的训练时间较长,很多下游的应用都会直接使用预训练的GNN模型。这也给后门攻击提供了更多的机会。
二、GNN后门攻击概述
为了详细说明,下面具体的介绍一下图神经网络的后门攻击。
2.1GNN后门攻击
GNN后门攻击是希望在GNN模型的训练过程中或是在迁移过程中在模型中埋入后门,埋藏好后门的模型通过攻击者预先设定的触发器激活。在后门未被激活时,被攻击的GNN模型具有和正常模型类似的表现。而当模型中埋藏的后门被攻击者激活时,模型的输出攻击者预期的结果以达到恶意的目的。GNN后门攻击的过程如图1所示。GNN后门攻击可以发生在训练过程非完全受控的场景中,如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型等,因此会对GNN模型的安全性造成了巨大的威胁。
后门攻击主要包括三个主要过程:触发器配置、训练过程和测试过程。通常GNN的后门触发器是一个子图,假定该子图包含有t个节点。触发器配置就是以某种方式把触发器子图映射到图数据中,触发器的选择与映射是GNN后门攻击的关键。在训练过程中,攻击者向训练数据中注入触发器(子图),使得训练结果按攻击者的要求进行改变,最后学习得到了个带有后门的GNN模型。该模型可以被占应用到了下游应用中,在没有激活触发器的情况下模型输出正常结果,如果触发器被激活的话将按攻击者的意愿输出结果。

图1 GNN后门攻击过程
2.2GNN后门攻击形式化描述
GNN后门攻击主要有两个关键部分:触发器与后门模型。对于一个预训练GNN模型,攻击者的目的是通过技术手段对GNN模型进行修改,在下游应用中针对带有触发器的图数据能按攻击者的意图输出攻击者想要的结果,而对于没有触发器的数据则正常输出结果。因此,GNN后门攻击的目标函数可写成如下形式:

G表示给定的图数据,表示触发器, 表示融合了触发器的图数据,表示后门GNN模型,表示无后门GNN模型。第一个公式表示带触发器的图数据将会按攻击者的意图输出结果(如分类标签等)。第二个公式表示对于无触发器数据将会输出与无后门GNN模型一样的结果,该目标是为了提高GNN后门攻击的隐蔽性。因此,GNN后门攻击的关键就是对于触发器与后门GNN模型的构建。
三、已有的GNN后门攻击方法
本节针对已有GNN后门攻击的研究工作进行了介绍。当前针对GNN后门的研究工作还较少,主要有三个工作。文献[1]要报深度学习的后门攻击方法提出了一种基于子图的GNN后门攻击。文献[2]系统的阐述了GNN后门攻击的特点,提出了一种可以根据应用动态调成的GNN后门攻击方法。文献[3]从GNN可解释性的角度探索了不同触发器对GNN后门攻击的影响。下面分别详细介绍这三个工作。
3.1基于子图的GNN后门攻击
文献[1]主要是提出了一种基于子图的GNN后门攻击,针对图分类任务。针对GNN触发器的特点,提出了一种描述触发器的子图模式。触发器的子图模式由四种参数描述:触发器大小、触发器稠密度、触发器合成方法、投毒密度。触发器大小与稠密度是指表示触发器的子图的节点与边数目与该图的稠密度。触发器的合成方法是指给定节点与边数、图的稠密度生成图的方法。投毒密度是指触发器占训练数据的大小。
整个攻击过程如图1所示。其中关键是触发器的计算过程,由于构建一个完全子图作为触发器很容易被检测到,该文献采用随机采样的方法生成触发器子图。
3.2GTA攻击
文献[1]提出的GNN后门攻击方法只能针对图分类任务,无法应用到其他应用中,同时触发器是固定的无法按要求进行动态的调整。针对这些问题,文献[2]提出了一种更有效的GNN后门攻击方法-GTA。GTA的触发器是一个特殊的子图,该子图包含了拓扑结构与离散特征。GTA方法可以根据输入动态调整触发器。原有的深度学习后门攻击的触发器是固定的无法根据输入动态调整,这就导致触发器无法适用于所有输入数据。触发器动态调整可以大大提高后门攻击的有效性。假定攻击者没有关于下游模型或是微调策略的知识,GTA优化了后门GNN的中间表示,可以面对不同的系统设计。GTA是一个图攻击框架,可以针对不同的应用场景如(图分类,节点分类)等,其对这些应用会产生严重的威胁。该工作如图2所示。

图2 GTA后门攻击框架
3.3基于可解释的GNN后门攻击
针对GNN的后门攻击为GNN的应用带来的巨大的安全性上的挑战。其实GNN后门攻击中触发器的选择是关键。文献[3]通过GNN可解释来探索触发器的最优选择策略。并针对图分类与节点分类两种应用进行了探索分析。
图3为GNN后门攻击在图分类上的应用,采用的解释器是GNNExplainer[4]。使用GNNExplainer分析每个触发器位置对图分类的影响,并基于可解释器的影响评分提出有一种有效的触发器生成策略。

图3 节点分类任务的后门攻击过程
图4为GNN后门攻击在节点分类上的应用,由于GNNExplainer无法直接应用到节点分类上,本文还提出了一种新的解释方法GraphLIME。基于GraphLIM分析了GNN节点分类的结果,计算其中n个最具代表的特征,通过调整这些特征来找到相应的触发器。

图4 图分类任务的后门攻击过程
四、GNN后门攻击的防御
通常针对深度学习系统的攻击有两种防御方法:经验防御与验证防御。经验防御通常是为针对特定的攻击设计的,随着攻击手段的变化防御方法也可更新,这将会导致攻击者与防御之间的竟逐。例如,对于图像识别领域的后门攻击来说,文献[5]提出的动态后门攻击可以很容易的绕过当前的经验防御措施。因此,GNN后门攻击的防御主要是验证防御。