深度学习在计算机视觉、自然语言处理、语音识别等众多领域取得了巨大的成功,近年来逐步走进社会生产生活的方方面面。然而,当前的深度学习仍是 黑盒 ,被证实存在很多安全隐患,对抗脆弱性就是其中之一。通过添加人类肉眼难以察觉的特定噪声而生成的对抗样本,就可以使深度学习模型发生严重错误。如何构建可信的人工智能系统,尤其是提升深度学习模型的鲁棒性、安全性,是亟待解决的重要问题。机器学习中心王奕森课题组在可信机器学习的鲁棒性、安全性研究上取得了一系列成果,最近关于鲁棒泛化的研究成果“ Adversarial Weight Perturbation Helps Robust Generalization ”被机器学习顶级会议 NeurIPS 2020 接收。

针对深度学习模型的对抗脆弱性问题,目前最有效的的防御方式是将生成的对抗样本加到模型的训练数据中,构成对抗训练。然而,即使模型通过对抗训练在已有数据(训练数据)上达到很高的鲁棒性,在全新数据(测试数据)上的鲁棒性能依旧不佳,遭遇了鲁棒泛化能力差的困境。因此,探究影响鲁棒泛化的因素显得尤为关键。课题组借助 即时 生成对抗样本的方式,第一次成功观测到模型的参数损失曲面( Weight Loss Landscape )与鲁棒泛化误差界( Robust Generalization Gap )存在紧密联系,如下图所示,这种联系不仅存在于模型的训练过程之中,也存在于不同对抗训练方法之中。

进一步,课题组提出 对抗参数扰动 Adversarial Weight Perturbation )的方法,在优化目标中引入参数损失曲面的性质,由此得到了深度学习模型的双重扰动对抗训练算法( min-max-max 优化)。最后,通过 PAC-Bayes 理论和大规模实验,从理论和实验两方面验证了对抗参数扰动的有效性,显著提升了深度学习模型的鲁棒泛化能力,部分实验结果如下图所示:

参考文献:

Dongxian Wu, Shu-Tao Xia, Yisen Wang. Adversarial Weight Perturbation Helps Robust Generalization . Thirty-fourth Conference on Neural Information Processing Systems (NeurIPS 2020)