[已完结][论文汇总] CVPR 2023 对抗样本方向论文整理
[已完结][论文汇总] CVPR 2023 对抗样本方向论文整理
简单整理一下CVPR 2023中录用的对抗样本方向论文,已完结,欢迎大家点赞、收藏~
因为NIPS投稿和ICCV Rebuttal等原因搁置更新了,最近补上~
本文更新于2023年06月18日(更新了部分论文的开源代码,共55篇)。由于这次没有看到有area分类的list,我把全部的title过了一遍,穿插了几篇跟对抗相关的后门和投毒攻击或者鲁棒性的工作。
有不准确或者重复的地方,欢迎大家批评指出~
1. Robust Single Image Reflection Removal Against Adversarial Attacks
摘要:本文解决了针对对抗攻击的鲁棒深度单图像反射去除 (SIRR) 问题。当前基于深度学习的 SIRR 方法由于输入图像上不明显的失真和扰动而表现出显着的性能下降。 为了进行全面的鲁棒性研究,我们首先针对 SIRR 问题进行了多种对抗攻击,即针对不同的攻击目标和区域。然后我们提出了一个鲁棒的 SIRR 模型,它集成了跨尺度注意力模块、多尺度融合模块和对抗图像鉴别器。 通过利用多尺度机制,该模型缩小了干净图像和对抗图像的特征之间的差距。图像鉴别器自适应区分干净或嘈杂的输入,从而进一步获得可靠的鲁棒性。 在 Nature、SIR^2 和 Real 数据集上进行的大量实验表明,我们的模型显着提高了 SIRR 在不同场景中的鲁棒性。
2. Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression
代码: https:// github.com/ByungKwanLee /Causal-Adversarial-Instruments
摘要:对抗样本的起源在研究领域仍然是莫名其妙的,尽管进行了全面的调查,但它引起了各种观点的争论。 在本文中,我们提出了一种从因果角度研究对抗训练网络中意外漏洞的方法,即对抗工具变量 (IV) 回归。 通过部署它,我们估计了在与未知混杂因素分离的无偏见环境下对抗预测的因果关系。 我们的方法旨在通过利用偶然特征估计器(即假设模型)和最坏情况反事实(即测试函数)之间的零和优化游戏来揭开对抗样本的固有因果特征的神秘面纱,以寻找因果特征。 通过广泛的分析,我们证明了估计的因果特征与对抗鲁棒性的正确预测高度相关,反事实表现出明显偏离正确预测的极端特征。此外,我们还介绍了如何有效地将 CAusal FEatures (CAFE) 接种到防御网络中以提高对抗鲁棒性。
3. Dynamic Generative Targeted Attacks With Pattern Injection
摘要:对抗攻击可以评估模型的鲁棒性,近年来备受关注。 在各种攻击中,目标攻击旨在误导受害者模型以输出对手想要的预测,这比无目标攻击更具挑战性和威胁性。现有的目标攻击大致可以分为实例特定攻击和实例不可知攻击。特定于实例的攻击通过对特定实例进行迭代梯度更新来制作对抗样本。 相反,与实例无关的攻击在全局数据集上学习通用扰动或生成模型来执行攻击。 然而它们过于依赖替代模型的分类边界,而忽略了目标类别的真实分布,这可能导致目标攻击性能有限。 并且没有尝试同时结合特定实例和全局数据集的信息。为了应对这些限制,我们首先通过因果图进行分析,并建议通过注入目标模式来制作可迁移的目标对抗样本。 基于此分析,我们引入了一个由交叉注意引导卷积模块和模式注入模块组成的生成攻击模型。 具体来说,前者分别针对特定实例和全局数据集采用动态卷积核和静态卷积核,可以继承实例特定攻击和实例不可知攻击的优点。 模式注入模块利用模式原型对目标模式进行编码,可以指导目标对抗样本的生成。 此外,我们还提供严格的理论分析以保证我们方法的有效性。大量实验表明,我们的方法比针对 13 个模型的 10 种现有对抗攻击表现出更好的性能。
4. Towards Transferable Targeted Adversarial Examples
摘要:对抗样本的可迁移性对于黑盒深度学习模型攻击至关重要。虽然大多数现有研究都侧重于增强非目标对抗攻击的可迁移性,但很少有人研究如何生成可迁移的有目标攻击对抗样本,这些样本可能会误导模型预测特定类别。此外,现有的可迁移目标对抗攻击通常无法充分表征目标类分布,因此可迁移性有限。在本文中,我们提出了可迁移的目标对抗攻击(TTAA),它可以从标签和特征的角度捕获目标类的分布信息,以生成高度可迁移的目标对抗样本。 为此,我们设计了一个生成对抗训练框架,包括一个生成器来生成目标攻击的对抗样本,以及特征标签双鉴别器来区分生成的对抗样本和目标类图像。 具体来说,我们设计了标签鉴别器来引导对抗样本学习目标类别的标签相关分布信息。 同时,我们设计了一个特征鉴别器,提取具有强跨模型一致性的特征信息,使对抗样本能够学习可迁移的分布信息。 此外,我们引入随机扰动下降,通过增加训练过程中使用的对抗样本的多样性来进一步增强可迁移性。 实验表明,我们的方法在目标对抗样本的可迁移性方面取得了优异的性能。 当从 VGG-19 迁移到 DenseNet-121 时,目标欺骗率达到 95.13%,明显优于最先进的方法。
5. Effective Ambiguity Attack Against Passport-Based DNN Intellectual Property Protection Schemes Through Fully Connected Layer Substitution
摘要:由于训练深度神经网络 (DNN) 的成本很高,因此训练有素的深度模型可被视为宝贵的知识产权 (IP) 资产。 与深度模型相关的知识产权保护近年来受到越来越多的关注。 基于护照的方法用护照层代替规范化层,是为数不多的声称可以抵御高级攻击的保护解决方案之一。在这项工作中,我们解决了评估基于护照的知识产权保护方法的安全性问题。 我们提出了一种针对基于护照的方法的新颖有效的歧义攻击,能够使用较小的训练数据集成功伪造多本有效护照。这是通过在护照参数之前插入一个专门设计的附件块来实现的。 使用不到 10% 的训练数据,使用伪造的护照,与授权护照相比,该模型表现出几乎无法区分的性能差异(小于 2%)。 此外,表明我们的攻击策略可以很容易地推广到攻击其他基于水印嵌入的 IP 保护方法。 还给出了潜在补救解决方案的说明。
6. Enhancing the Self-Universality for Transferable Targeted Attacks
代码: https:// github.com/zhipeng-wei/ Self-Universality
摘要:在本文中,我们提出了一种新颖的基于迁移的目标攻击方法,该方法可以优化对抗扰动,而无需对训练数据的辅助网络进行任何额外的训练。 我们的新攻击方法是基于以下观察提出的,即高度普遍的对抗扰动往往更容易迁移到目标攻击中。 因此,我们建议使扰动对一幅图像中的不同局部区域不可知,我们称之为自普遍性。不是优化不同图像上的扰动,而是优化不同区域以实现自我普遍性可以摆脱使用额外数据。 具体来说,我们引入了一种特征相似性损失,通过最大化对抗扰动的全局图像和随机裁剪的局部区域之间的特征相似性来鼓励学习的扰动具有普遍性。 通过特征相似性损失,我们的方法使对抗扰动的特征比良性图像的特征更具优势,从而提高了目标迁移性。我们将所提出的攻击方法命名为自普遍性 (SU) 攻击。 大量实验表明,SU 可以实现基于迁移的目标攻击的高成功率。 在与 ImageNet 兼容的数据集上,SU 与现有的最先进方法相比提高了 12%。
7. Ensemble-Based Blackbox Attacks on Dense Prediction
代码: https:// github.com/CSIPlab/EBAD
摘要:我们提出了一种对密集预测模型(例如对象检测器和分割)进行对抗攻击的方法。 众所周知,单个代理模型产生的攻击不会迁移到任意(黑盒)受害者模型。 此外,目标攻击通常比非目标攻击更具挑战性。 在本文中,我们展示了精心设计的集成可以为许多受害者模型创建有效的攻击。 特别是,我们表明单个模型的权重标准化在攻击成功中起着关键作用。 然后,我们证明通过根据受害者模型调整集成的权重可以进一步提高攻击的性能。 我们对对象检测器和分割进行了大量实验,以突出我们提出的方法的重要性。我们提出的基于集成的方法优于现有的用于对象检测和分割的黑盒攻击方法。 最后,我们表明我们提出的方法还可以生成可以同时欺骗多个黑盒检测和分割模型的单个扰动。
8. Benchmarking Robustness of 3D Object Detection to Common Corruptions
代码: https:// github.com/thu-ml/3D_Co rruptions_AD
摘要:3D 物体检测是自动驾驶中感知周围环境的一项重要任务。 尽管性能出色,但现有的 3D 检测器缺乏对恶劣天气、传感器噪声等引起的现实世界损坏的鲁棒性,引发了人们对自动驾驶系统安全性和可靠性的担忧。 为了全面严格地对 3D 检测器的损坏鲁棒性进行基准测试,在本文中,我们考虑到真实世界的驾驶场景,为 LiDAR 和摄像头输入设计了 27 种常见的损坏类型。 通过在公共数据集上综合这些损坏,我们建立了三个损坏鲁棒性基准——KITTI-C、nuScenes-C 和 Waymo-C。 然后,我们对 24 种不同的 3D 对象检测模型进行了大规模实验,以评估它们的腐败鲁棒性。 根据评估结果,我们得出了几个重要的发现,包括:1)运动级损坏是导致所有模型性能显着下降的最具威胁性的损坏; 2) LiDAR-相机融合模型表现出更好的鲁棒性; 3)只有相机的模型极易受到图像损坏的影响,显示了 LiDAR 点云的不可或缺性。
9. Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition
代码: https:// github.com/thu-ml/AT3D
摘要:人脸识别是众多生物识别应用中流行的身份验证解决方案。 物理对抗攻击作为一种重要的替代手段,可以识别人脸识别系统的弱点,并在部署前评估其鲁棒性。 然而,大多数现有的物理攻击要么很容易被检测到,要么对商业识别系统无效。 这项工作的目标是开发一种更可靠的技术,可以对商业系统的对抗鲁棒性进行端到端评估。 它要求这种技术可以同时欺骗黑盒识别模型和规避防御机制。 为了实现这一点,我们在人脸上设计了具有复杂拓扑结构的对抗纹理 3D 网格 (AT3D),可以将其 3D 打印并粘贴在攻击者的脸上以逃避防御。 然而,基于网格的优化机制在高维网格空间中计算梯度,并且可能陷入局部最优,可迁移性不理想。 为了偏离基于网格的空间,我们建议扰动基于 3D 可变形模型的低维系数空间,这显着提高了黑盒可迁移性,同时享受更快的搜索效率和更好的视觉质量。 在数字和物理场景中的大量实验表明,我们的方法有效地探索了多种流行商业服务的安全漏洞,包括三个识别 API、四个反欺骗 API、两个流行的手机和两个自动访问控制系统。
10. T-SEA: Transfer-Based Self-Ensemble Attack on Object Detection
代码: https:// github.com/VDIGPKU/T-SE A
摘要:与基于查询的黑盒攻击相比,基于迁移的黑盒攻击不需要被攻击模型的任何信息,从而确保了其保密性。 然而,大多数现有的基于迁移的方法都依赖于集成多个模型来提高攻击的可迁移性,这是时间和资源密集型的,更不用说在同一任务上获得不同模型的困难了。 为了解决这一局限性,在这项工作中,我们专注于针对对象检测的基于单模型传输的黑盒攻击,仅利用一个模型实现对多个黑盒检测器的高可迁移性对抗攻击。 具体来说,我们首先对现有方法的图块优化过程进行观察,并通过略微调整其训练策略来提出增强的攻击框架。 然后,我们将图块优化与常规模型优化进行类比,提出了一系列针对输入数据、被攻击模型和对抗图块的自集成方法,以有效利用有限信息并防止图块过度拟合。 实验结果表明,所提出的框架可以与多种经典的基础攻击方法(如 PGD 和 MIM)一起应用,大大提高优化后的图块在多个主流检测器上的黑盒可迁移性,同时提升白盒性能。
11. Progressive Backdoor Erasing via Connecting Backdoor and Adversarial Attacks
摘要:众所周知,深度神经网络 (DNN) 容易受到后门攻击和对抗攻击。 在文献中,这两种类型的攻击通常被视为不同的问题并分别解决,因为它们分别属于训练时间和推理时间攻击。 然而,在这篇论文中,我们发现了它们之间有趣的联系:对于植入后门的模型,我们观察到它的对抗样本与其触发样本具有相似的行为,即两者都激活相同的 DNN 神经元子集。 这表明在模型中植入后门会显着影响模型的对抗样本。 基于这一观察,提出了一种新颖的渐进式后门擦除 (PBE) 算法,通过利用无针对性的对抗攻击来逐步净化受感染的模型。 与以前的后门防御方法不同,我们的方法的一个显着优势是即使在额外的干净数据集不可用时它也可以清除后门。 我们凭经验表明,针对 5 种最先进的后门攻击,我们的 AFT 可以有效地擦除后门触发器,而不会在干净样本上出现明显的性能下降,并且明显优于现有的防御方法。
12. Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations
代码: https:// hsiung.cc/CARBEN/
摘要:模型针对单一扰动类型(例如 Lp 范数)的对抗鲁棒性已得到广泛研究,但它在涉及多个语义扰动及其组成的更现实场景中的泛化在很大程度上仍未得到探索。 在本文中,我们首先提出了一种生成复合对抗样本的新方法。 我们的方法可以利用分量投影梯度下降和自动攻击顺序调度找到最佳攻击组合。 然后,我们提出广义对抗训练 (GAT),以将模型的鲁棒性从 Lp-ball 扩展到复合语义扰动,例如色调、饱和度、亮度、对比度和旋转的组合。 使用 ImageNet 和 CIFAR-10 数据集获得的结果表明,GAT 不仅对单一攻击的所有测试类型都具有鲁棒性,而且对此类攻击的任意组合也具有鲁棒性。 GAT 的性能也大大优于基线 L-无穷范数有界对抗训练方法。
13. Sibling-Attack: Rethinking Transferable Adversarial Attacks Against Face Recognition
摘要:开发实用人脸识别 (FR) 攻击的一项艰巨挑战是由于目标 FR 模型的黑盒性质,即攻击者无法访问梯度和参数信息。 虽然最近的研究通过利用可迁移性向攻击黑盒 FR 模型迈出了重要一步,但它们的性能仍然有限,尤其是针对可能悲观的在线商业 FR 系统(例如,平均低于 50% 的 ASR 攻击成功率)。受此启发,我们提出了 Sibling-Attack,这是一种新的 FR 攻击技术,首次探索了一种新颖的多任务视角(即,利用来自多相关任务的额外信息来提高对抗迁移性)。 直观上,Sibling-Attack 选择一组与 FR 相关的任务,并基于理论和定量分析选择属性识别 (AR) 任务作为 Sibling-Attack 中使用的任务。 Sibling-Attack 然后开发了一个优化框架,通过(1)将跨任务特征约束在同一空间下,(2)增强任务之间梯度兼容性的联合任务元优化框架,以及( 3)一种跨任务梯度稳定方法,可以减轻攻击过程中的振荡效应。 广泛的实验表明,Sibling-Attack 以不小的幅度优于最先进的 FR 攻击技术,在最先进的预训练 FR 模型和两个 众所周知,广泛使用的商业 FR 系统。
14. Minimizing Maximum Model Discrepancy for Transferable Black-Box Targeted Attacks
摘要:在这项工作中,我们从模型差异的角度研究了黑盒目标攻击问题。 在理论方面,我们提出了针对黑盒目标攻击的泛化误差界,为保证攻击成功提供了严谨的理论分析。 我们揭示了目标模型的攻击误差主要取决于替代模型的经验攻击误差和替代模型之间的最大模型差异。 在算法方面,我们基于我们的理论分析推导出了一种针对黑盒目标攻击的新算法,其中我们在训练生成器生成对抗样本时额外地最小化了替代模型的最大模型差异(M3D)。 通过这种方式,我们的模型能够制作出对模型变化具有鲁棒性的高度可移植的对抗样本,从而提高了攻击黑盒模型的成功率。 我们对具有不同分类模型的 ImageNet 数据集进行了大量实验,我们提出的方法大大优于现有的最先进方法。
15. The Best Defense Is a Good Offense: Adversarial Augmentation Against Adversarial Attacks
代码: https:// github.com/NVlabs/A5
摘要:许多针对对抗攻击的防御措施(例如鲁棒分类器、随机化或图像净化)仅在攻击发生后才使用对策。 我们采用不同的视角来介绍 A^5(针对对抗攻击的对抗增强),这是一个新颖的框架,包括第一个经过认证的对抗攻击的先发制人防御。 主要思想是设计一个防御性扰动,以保证对手头输入的任何攻击(达到给定的幅度)都会失败。为此,我们利用现有的神经网络自动扰动分析工具。 我们研究了有效应用 A^5 的条件,分析了待防御分类器鲁棒性的重要性,并检查了鲁棒化图像的外观。 我们通过忽略真实标签的鲁棒网络展示了有效的即时防御增强,并展示了鲁棒器和分类器协同训练的好处。 在我们的测试中,A^5 在 MNIST、CIFAR10、FashionMNIST 和 Tinyimagenet 上始终击败最先进的认证防御。 我们还展示了如何应用 A^5 来创建可靠的物理对象。 在 https:// github.com/NVlabs/A5 上发布的代码允许在此处测试的中间人攻击之外的各种场景上进行实验,包括物理攻击的情况。
16. Evading DeepFake Detectors via Adversarial Statistical Consistency
摘要:近年来,随着DeepFake等各种逼真人脸伪造技术突飞猛进,越来越多的DeepFake检测技术被提出。 这些方法通常依赖于检测自然(即真实)和 DeepFake 生成的图像在空间域和频域中的统计差异。 在这项工作中,我们建议明确地最小化统计差异以逃避最先进的 DeepFake 检测器。 为此,我们提出了一种针对 DeepFake 检测器的统计一致性攻击(StatAttack),它包含两个主要部分。 首先,我们选择几个统计敏感的自然退化(即曝光、模糊和噪声),并以对抗方式将它们添加到假图像中。 其次,我们发现自然图像和 DeepFake 图像之间的统计差异与两种图像之间的分布变化正相关,我们建议使用分布感知损失来指导不同退化的优化。 因此,生成的对抗样本的特征分布接近于自然图像。 此外,我们将 StatAttack 扩展到更强大的版本 MStatAttack,我们将单层退化顺序扩展到多层退化,并使用损失联合调整组合权重。 具有四个数据集的四个基于空间的检测器和两个基于频率的检测器的综合实验结果证明了我们提出的攻击方法在白盒和黑盒设置中的有效性。
17. Improving the Transferability of Adversarial Samples by Path-Augmented Method
摘要:深度神经网络在各种视觉任务上取得了前所未有的成功。 然而,它们很容易受到人类无法察觉的对抗噪音的影响。 这种现象对它们在现实场景中的部署产生了负面影响,尤其是与安全相关的场景。为了在实践中评估目标模型的鲁棒性,基于传输的攻击使用局部模型制作对抗样本,并且由于其高效性而引起了研究人员越来越多的关注。 最先进的基于迁移的攻击通常基于数据增强,通常在学习对抗样本时从线性路径增强多个训练图像。 然而,这些方法启发式地选择图像增强路径,并且可能增强与目标图像语义不一致的图像,这损害了生成的对抗样本的迁移性。 为了克服这个陷阱,我们提出了路径增强方法(PAM)。 具体来说,PAM首先构建一个候选增强路径池。 然后,它通过贪婪搜索在对抗样本生成期间确定所使用的增强路径。 此外,为了避免增强语义不一致的图像,我们训练语义预测器 (SP) 来限制增强路径的长度。 大量实验证实,与最先进的基线相比,PAM 在攻击成功率方面平均可以提高 4.8% 以上。
18. Transferable Adversarial Attacks on Vision Transformers With Token Gradient Regularization
摘要:ViT已成功部署在各种计算机视觉任务中,但它们仍然容易受到对抗样本的攻击。 基于迁移的攻击使用本地模型生成对抗样本并直接传输它们来攻击目标黑盒模型。 基于迁移的攻击的高效率使其成为基于 ViT 的应用程序的严重安全威胁。 因此,设计有效的基于迁移的攻击以在安全敏感场景中预先识别 ViT 的缺陷至关重要。 现有的努力通常集中在对输入梯度进行正则化以稳定对抗样本的更新方向。 然而,在 ViTs 的中间块中反向传播梯度的方差可能仍然很大,这可能会使生成的对抗样本集中在一些特定于模型的特征上,并陷入较差的局部最优。 为了克服现有方法的缺点,我们提出了令牌梯度正则化(TGR)方法。 根据 ViTs 的结构特征,TGR 以 token-wise 的方式减少 ViTs 每个内部块中反向传播梯度的方差,并利用正则化梯度生成对抗样本。 攻击 ViT 和 CNN 的大量实验证实了我们方法的优越性。 值得注意的是,与最先进的基于传输的攻击相比,我们的 TGR 平均提高了 8.8% 的性能。
19. Privacy-Preserving Adversarial Facial Features
摘要:人脸识别服务提供商通过从图像中提取紧凑且具有辨别力的面部特征(表示)并存储面部特征以进行实时识别来保护面部隐私。 然而,仍然可以利用这些特征通过构建重建网络来恢复原始人脸的外观。 虽然已经提出了几种隐私保护方法,但增强人脸隐私保护是以精度下降为代价的。 在本文中,我们提出了一种基于对抗特征的人脸隐私保护(AdvFace)方法来生成保护隐私的对抗特征,它可以破坏从对抗特征到面部图像的映射,以抵御重建攻击。 为此,我们设计了一个阴影模型来模拟攻击者的行为,以捕获从面部特征到图像的映射函数,并生成对抗潜在噪声来破坏映射。 对抗特征而不是原始特征存储在服务器的数据库中,以防止泄露的特征暴露面部信息。 此外,AdvFace 无需更改人脸识别网络,可以作为部署的人脸识别系统中的隐私增强插件实施。 大量的实验结果表明,AdvFace 在保持人脸识别准确性的同时,在抵御重建攻击方面优于最先进的人脸隐私保护方法。
20. Boosting Accuracy and Robustness of Student Models via Adaptive Adversarial Distillation
代码: https:// github.com/boyellow/Ada AD
摘要:教师-学生架构中的蒸馏学生模型被广泛认为用于实时应用程序和边缘设备中的计算有效部署。 但是,学生模型在边缘遇到对抗攻击的风险更高。 对抗训练等流行的增强方案在压缩网络上的性能有限。 因此,最近的研究关注的是对抗蒸馏(AD),它不仅要继承预测准确性,还要继承鲁棒优化范式下鲁棒教师模型的对抗鲁棒性。 在 AD 的 min-max 框架中,现有的 AD 方法通常使用来自教师模型的固定监督信息来指导知识蒸馏的内部优化,这往往会导致对模型平滑度的过度校正。 在这篇论文中,我们提出了一种自适应对抗蒸馏(AdaAD),它在知识优化过程中涉及教师模型,以与学生模型交互的方式自适应地搜索内部结果。 与最先进的方法相比,所提出的 AdaAD 在大多数情况下都可以显着提高学生模型的预测准确性和对抗鲁棒性。 特别是,由 AdaAD 训练的 ResNet-18 模型在 AutoAttack 下的 RobustBench 上实现了顶级性能(54.23% 鲁棒精度)。
21. Trade-Off Between Robustness and Accuracy of Vision Transformers
摘要:尽管深度神经网络 (DNN) 在计算机视觉任务中取得了巨大的成功,但它们容易受到输入扰动的影响,并且在自然精度和对此类扰动的鲁棒性之间存在权衡,这主要是由于鲁棒性的存在 非预测特征和非鲁棒预测特征。 最近的实证分析发现 Vision Transformers (ViTs) 对各种扰动具有固有的鲁棒性,但上述权衡仍然存在。 在这项工作中,我们提出了TORA-ViTs的鲁棒性和准确性之间的权衡,旨在有效地传输在自然任务上预训练的 ViT 模型,以提高准确性和鲁棒性。 TORA-ViTs 由两个主要组件组成,包括一对分别用于提取预测和鲁棒特征的准确性和鲁棒性适配器,以及一个用于调整权衡的门控融合模块。 门控融合模块将预训练的 ViT 块的输出作为查询,将我们的适配器的输出作为键和值,来自不同空间位置的不同适配器的令牌相互比较,以生成注意力分数,以平衡预测和鲁棒的特征 . 使用各种鲁棒基准在 ImageNet 上进行的实验表明,我们的 TORA-ViT 可以有效地提高自然预训练 ViT 的鲁棒性,同时保持具有竞争力的自然精度。 我们最平衡的设置(带有 lambda = 0.5 的 TORA-ViTs)可以在干净的 ImageNet 上保持 83.7% 的准确度,在 FGSM 和 PGD 白盒攻击下分别达到 54.7% 和 38.0% 的准确度。 就各种ImageNet变体而言,它在ImageNet-A和ImageNet-R上可以达到39.2%和56.3%的准确率,在ImageNet-C上达到34.4%的mCE。
22. Adversarial Counterfactual Visual Explanations
代码: https:// guillaumejs2403.github.io /projects/ace.html
摘要:反事实解释和对抗攻击有一个相关的目标:无论其特征如何,都以最小的扰动翻转输出标签。 然而,对抗攻击不能直接用于反事实解释的角度,因为这种扰动被视为噪音,而不是可操作和可理解的图像修改。 基于鲁棒学习的文献,本文提出了一种优雅的方法,可以将对抗攻击转化为语义上有意义的扰动,而无需修改分类器来解释。 所提出的方法假设去噪扩散概率模型是优秀的正则化器,可以在产生对抗攻击时避免高频和分布外的扰动。 该论文的主要思想是通过扩散模型构建攻击来完善它们。 这允许研究目标模型,而不管其鲁棒性级别如何。 广泛的实验表明我们的反事实解释方法在多个测试平台上优于当前最先进的方法。
23. Exploring the Relationship Between Architectural Design and Adversarially Robust Generalization
摘要:对抗训练已被证明是防御对抗样本的最有效补救措施之一,但它经常遭受看不见的测试对手的巨大鲁棒性泛化差距,被认为是对抗鲁棒泛化问题。 尽管对对抗鲁棒泛化有了初步的了解,但从架构的角度来看知之甚少。为了弥合差距,本文首次系统地研究了对抗鲁棒泛化与架构设计之间的关系。 特别是,我们在 ImageNette 和 CIFAR-10 数据集上针对多重 l_p-norm 对抗攻击全面评估了 20 个最具代表性的对抗训练架构。 基于广泛的实验,我们发现,在对齐设置下,Vision Transformers(例如 PVT、CoAtNet)通常会产生更好的对抗鲁棒泛化,而 CNN 往往会过度适应特定攻击而无法泛化多个对手。 为了更好地理解其背后的本质,我们通过 Rademacher 复杂性的镜头进行理论分析。 我们揭示了一个事实,即较高的权重稀疏性对 Transformer 更好的对抗鲁棒泛化有显着贡献,这通常可以通过专门设计的注意力块来实现。 我们希望我们的论文可以帮助更好地理解设计鲁棒DNN 的机制。 我们的模型权重可以在 http://robust.art 找到。
24. Discrete Point-Wise Attack Is Not Enough: Generalized Manifold Adversarial Attack for Face Recognition
代码: https:// github.com/tokaka22/GMA A
摘要:人脸识别 (FR) 模型的经典对抗攻击通常会使用单个状态图像生成目标身份的离散示例。然而,这种逐点攻击的范例对许多未知的身份状态表现出较差的泛化能力,并且很容易被防御。 在本文中,通过重新思考目标身份的面部与其变体之间的内在关系,我们引入了一种新的广义流形对抗攻击(GMAA)管道,通过扩大攻击范围来实现更好的攻击性能。 具体来说,这种扩展有两个方面——GMAA 不仅将要攻击的目标从一个扩展到多个,以鼓励生成的对抗样本具有良好的泛化能力,而且还通过利用域将后者从离散点扩展到流形,知道面部表情变化可以是连续的,这就像数据增强机制一样增强了攻击效果。 此外,我们进一步设计了具有局部和全局约束的双重监督,作为提高生成的对抗样本的视觉质量的次要贡献。 我们基于大量实验证明了我们方法的有效性,并表明 GMAA 有望提供具有更高泛化能力和视觉质量的语义连续对抗空间。
25. Physical-World Optical Adversarial Attacks on 3D Face Recognition
代码: https:// github.com/PolyLiYJ/SLA ttack
摘要:目前的对抗攻击在现实世界的 3D 人脸识别任务上的成功率仍然很低,因为 3D 打印攻击需要满足生成的点应与表面相邻的要求,这限制了对抗样本的搜索空间。 此外,他们没有考虑不可预测的头部运动或现实世界中皮肤反射率的非均匀性。 为了应对现实世界的挑战,我们提出了一种针对基于结构光的 3D 人脸识别的新型结构光攻击。 我们在优化过程中结合了 3D 重建过程和皮肤反射率以获得端到端攻击,并呈现 3D 变换不变损失和灵敏度图以提高鲁棒性。 我们的攻击使对抗点可以放置在任何位置,并且对随机头部运动具有弹性,同时保持扰动不明显。 实验表明,我们的新方法可以以高成功率攻击基于点云和基于深度图像的 3D 人脸识别系统,并且使用比以前的物理 3D 对抗攻击更少的扰动。
26. Angelic Patches for Improving Third-Party Object Detector Performance
代码: https:// github.com/averysi224/a ngelic_patches
摘要:深度学习模型显示出极易受到简单扰动和空间变换的影响。 在这项工作中,我们探索是否可以采用对抗攻击方法的特性来帮助提高目标检测的扰动鲁棒性。 我们研究了一类现实物体检测设置,其中目标物体可以控制它们的外观。 为此,我们提出了一种反向快速梯度符号法 (FGSM) 来获得这些显着增加检测概率的天使图块,即使没有扰动的预先知识。 详细地说,我们同时将图块应用于每个对象实例,不仅加强了分类,而且加强了边界框的准确性。 实验证明了部分覆盖图块在解决复杂边界框问题中的功效。 更重要的是,即使在严格的仿射变换和可变形形状下,性能也可以迁移到不同的检测模型。 据我们所知,我们是第一个实现跨模型和多图块功效的(对象检测)图块。 我们在真实世界的实验中观察到平均准确率提高了 30%,这带来了巨大的社会价值。
27. Adversarially Robust Neural Architecture Search for Graph Neural Networks
摘要:图神经网络 (GNN) 在关系数据建模方面取得了巨大成功。 尽管如此,它们仍然容易受到对抗攻击,这对将 GNN 应用于风险敏感领域是巨大的威胁。 现有的防御方法既不能保证面对新数据/任务或对抗攻击的性能,也不能提供从架构角度理解 GNN 鲁棒性的见解。 神经架构搜索 (NAS) 有可能通过自动化 GNN 架构设计来解决这个问题。 然而,当前的图 NAS 方法缺乏鲁棒的设计并且容易受到对抗攻击。 为了应对这些挑战,我们提出了一种用于 GNN (G-RNA) 的新型鲁棒神经架构搜索框架。 具体来说,我们通过在搜索空间中添加图形结构掩码操作来为消息传递机制设计一个强大的搜索空间,该搜索空间包含各种防御操作候选者,并允许我们搜索防御性 GNN。 此外,我们定义了一个鲁棒性度量来指导搜索过程,这有助于过滤鲁棒架构。 通过这种方式,G-RNA 有助于从架构的角度理解 GNN 的鲁棒性,并有效地搜索最优的对抗鲁棒 GNN。 基准数据集上的大量实验结果表明,在对抗攻击下,G-RNA 的性能明显优于手动设计的鲁棒 GNN 和 vanilla graph NAS 基线 12.1% 至 23.4%。
28. RIATIG: Reliable and Imperceptible Adversarial Text-to-Image Generation With Natural Prompts
代码: https:// github.com/WUSTL-CSPL/R IATIG
摘要:文本到图像生成领域在创建高保真和逼真的图像方面取得了显着进步。 随着这项技术的普及,人们越来越担心其潜在的安全风险。 然而,从对抗的角度对这些模型的鲁棒性进行了有限的探索。 现有研究主要集中在非目标设置上,缺乏对可靠性(攻击成功率)和隐蔽性(不可感知性)的整体考虑。 在本文中,我们提出了 RIATIG,这是一种通过不显眼的样本对文本到图像模型进行可靠且不易察觉的对抗攻击。 通过将示例制作制定为优化过程并使用基于遗传的方法对其进行求解,我们提出的攻击可以以可靠的方式为文本到图像生成模型生成难以察觉的提示。 对六种流行的文本到图像生成模型的评估证明了我们在白盒和黑盒设置中的攻击的效率和隐蔽性。
29. Towards Benchmarking and Assessing Visual Naturalness of Physical World Adversarial Attacks
代码: https:// github.com/zhangsn-19/P AN
摘要:物理世界对抗攻击是一种高度实用且具有威胁性的攻击,它通过生成显眼且恶意制作的真实世界人工制品来愚弄真实世界的深度学习系统。 在物理世界的攻击中,高度重视评估自然性,因为人类可以轻松检测和消除非自然攻击。 然而,目前的研究以个案方式评估自然性、存在错误、偏见和不一致的问题。 在本文中,我们迈出了第一步,以自动驾驶场景为首次尝试,对物理世界攻击的视觉自然度进行基准测试和评估。 首先,为了对攻击自然性进行基准测试,我们贡献了第一个具有人类评级和注视的物理攻击自然性 (PAN) 数据集。 PAN 首次验证了几个见解:自然性(不同地)受上下文特征(即环境和语义变化)的影响,并与行为特征(即注视信号)相关。 其次,为了自动评估与人类评级一致的攻击自然性,我们进一步引入了双先验对齐 (DPA) 网络,旨在将人类知识嵌入到模型推理过程中。 具体来说,DPA 通过对先验对齐进行评级来模仿人类在自然性评估中的推理,并通过注意先验对齐来模仿人类注视行为。我们希望我们的工作能够促进研究,以改进和自动评估物理世界攻击的自然性。
30. TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization
摘要:近年来,预训练模型及其下游训练在深度学习研究和应用中的重要性与日俱增。 同时,对抗样本的防御主要在简单分类任务的随机初始化训练的背景下进行研究。 为了更好地利用预训练模型在对抗鲁棒性方面的潜力,本文着重于在各种分类任务中对对抗预训练模型进行微调。 现有研究表明,由于鲁棒预训练模型已经学习了鲁棒特征提取器,因此关键问题是在学习下游任务时如何保持预训练模型的鲁棒性。 我们为此目标研究了基于模型和基于数据的方法,发现这两种常用方法无法实现同时提高泛化性和对抗鲁棒性的目标。 因此,我们提出了一种新的基于统计的方法,即 Two-WIng NormliSation (TWINS) 微调框架,它由两个神经网络组成,其中一个在批量归一化层中保留预训练数据的总体均值和方差。 除了鲁棒的信息传递之外,TWINS 在不损害训练稳定性的情况下提高了有效学习率,因为标准批归一化层中权重范数与其梯度范数之间的关系被打破,从而更快地摆脱次优初始化并减轻鲁棒的过度拟合。 最后,TWINS 被证明在泛化性和鲁棒性方面对广泛的图像分类数据集有效。
31. Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples
代码: https:// github.com/jiamingzhang 94/Unlearnable-Clusters
摘要:人们越来越关注开发不可学习样本 (UE) 以防止 Internet 上的视觉隐私泄露。 UE 是添加了不可见但无法学习的噪声的训练样本,已发现可以防止未经授权的机器学习模型训练。 UE 通常是通过具有代理模型的双层优化框架生成的,以从原始样本中删除(最小化)错误,然后应用于保护数据免受未知目标模型的影响。 然而,现有的 UE 生成方法都依赖于称为标签一致性的理想假设,其中假设黑客和保护者对给定样本持有相同的标签。 在这项工作中,我们提出并推广了一种更实用的与标签无关的设置,在这种设置中,黑客可能会以与保护者完全不同的方式利用受保护的数据。 例如,保护者持有的 m 级不可学习数据集可能被黑客利用为 n 级数据集。 现有的 UE 生成方法在这种具有挑战性的环境中变得无效。 为了应对这一挑战,我们提出了一种称为 Unlearnable Clusters (UCs) 的新技术,以生成具有集群扰动的标签不可知的不可学习样本。 此外,我们建议利用像 CLIP 这样的视觉和语言预训练模型 (VLPM) 作为代理模型,以提高精心制作的 UC 到不同领域的可迁移性。 我们在具有不同数据集、目标模型甚至商业平台 Microsoft Azure 和百度 PaddlePaddle 的各种设置下,凭经验验证了我们提出的方法的有效性。
32. Randomized Adversarial Training via Taylor Expansion
代码: https:// github.com/Alexkael/Ran domized-Adversarial-Training
摘要:近年来,针对对抗样本开发更强大的深度神经网络的研究呈爆炸式增长。 对抗训练似乎是最成功的方法之一。 为了处理对抗样本的鲁棒性和干净样本的准确性,许多工作开发了增强的对抗训练方法以实现它们之间的各种权衡。 利用在训练期间平滑更新权重的研究可能有助于找到平坦的最小值并提高泛化能力,我们建议从另一个角度协调鲁棒性与准确性的权衡,即通过将随机噪声添加到确定性权重中。 随机权重使我们能够通过小高斯噪声的泰勒展开来设计一种新颖的对抗训练方法,并且我们证明了这种新的对抗训练方法可以拉平损失景观并找到平坦的最小值。 通过 PGD、CW 和自动攻击,大量实验表明我们的方法增强了最先进的对抗训练方法,提高了鲁棒性和干净的准确性。
33. AGAIN: Adversarial Training With Attribution Span Enlargement and Hybrid Feature Fusion
摘要:通过对抗训练 (AT) 训练的深度神经网络 (DNN) 通常存在显着的鲁棒泛化差距,即 DNN 实现高训练鲁棒性但低测试鲁棒性。 在本文中,我们提出了一种通用方法,从归因跨度的新角度提升 AT 方法的鲁棒泛化能力。 为此,与标准 DNN 相比,我们发现经过对抗训练的 DNN 的泛化差距是由输入图像上较小的归因跨度引起的。 换句话说,经过对抗训练的 DNN 倾向于关注训练图像上的特定视觉概念,从而导致其在测鲁棒性方面的局限性。 这样,为了增强鲁棒性,我们提出了一种扩大学习归因跨度的有效方法。 此外,我们使用混合特征统计进行特征融合,以丰富特征的多样性。 大量实验表明,我们的方法可以有效提高经过对抗训练的 DNN 的鲁棒性,优于以前的 SOTA 方法。 此外,我们对我们的方法进行了理论分析,以证明其有效性。
34. PointCert: Point Cloud Classification with Deterministic Certified Robustness Guarantees
代码: https:// github.com/jzhang538/Po intCert
摘要:点云分类是许多安全关键应用程序(例如自动驾驶和增强现实)中的重要组成部分。 然而,点云分类器容易受到对抗扰动的点云的影响。 针对对抗点云的现有可信防御存在一个关键限制:它们可信鲁棒性保证是概率性的,即它们以一定的概率产生不正确的可信鲁棒性保证。 在这项工作中,我们提出了一个通用框架,即 PointCert,它可以将任意点云分类器转换为可证明对具有确定性保证的对抗点云具有鲁棒性。 当任意添加、删除和/或修改的点数小于阈值时,PointCert 可证明地预测点云的相同标签。 此外,我们提出了多种方法来优化 PointCert 在三种应用场景中的可信鲁棒性保证。 我们在 ModelNet 和 ScanObjectNN 基准数据集上系统地评估 PointCert。 我们的结果表明,PointCert 的性能大大优于最先进的可信防御,尽管它们的鲁棒性保证是概率性的。
35. The Enemy of My Enemy Is My Friend: Exploring Inverse Adversaries for Improving Adversarial Training
摘要:尽管当前的深度学习技术已经在各种计算机视觉任务上取得了卓越的性能,但它们仍然容易受到对抗样本的影响。 对抗训练及其变体已被证明是抵御对抗样本的最有效方法。 这些方法中的一类特定方法规范了对抗性及其对应的自然示例的输出概率之间的差异。 但是,如果自然示例被错误分类,则可能会产生负面影响。 为了规避这个问题,我们提出了一种新颖的对抗训练方案,该方案鼓励模型为对抗样本及其“反向对抗性”对应物产生相似的输出概率。 特别地,通过最大化自然示例邻域中的似然来生成对应物。 在各种视觉数据集和架构上进行的大量实验表明,我们的训练方法在鲁棒模型中实现了最先进鲁棒性和自然准确性。 此外,使用通用版本的反向对抗样本,我们以较低的计算成本提高了单步对抗训练技术的性能。
36. Don’t Lie to Me! Robust and Efficient Explainability With Verified Perturbation Analysis
摘要:已经提出了多种方法来尝试解释深度神经网络如何做出决策。 这些方法的关键是需要有效地对像素空间进行采样以便导出重要性图。 然而,已经表明,迄今为止使用的采样方法引入了偏差和其他伪影,导致对单个像素重要性的估计不准确,并严重限制了当前可解释性方法的可靠性。 不幸的是,替代方案——对图像空间进行详尽采样在计算上是令人望而却步的。 在本文中,我们介绍了 EVA(使用经过验证的扰动分析进行解释)——第一个保证对扰动空间进行详尽探索的可解释性方法。 具体来说,我们利用经过验证的扰动分析的有益特性——时间效率、易处理性和保证流形的完全覆盖——来有效地表征最有可能推动模型决策的输入变量。 我们系统地评估了该方法,并在多个基准测试中展示了最先进的结果。
37. Feature Separation and Recalibration for Adversarial Robustness
代码: https:// github.com/wkim97/FSR
摘要:由于特征级别扰动的累积,深度神经网络容易受到对抗攻击,并且许多工作通过停用导致模型错误预测的非鲁棒特征激活来提高模型鲁棒性。 然而,我们声称这些恶意激活仍然包含辨别线索,并且通过重新校准,它们可以捕获额外的有用信息以进行正确的模型预测。 为此,我们提出了一种新的、易于插入的方法,称为特征分离和重新校准(FSR),它通过分离和重新校准重新校准恶意的、非鲁棒的激活以获得更鲁棒的特征图。 分离部分将输入特征映射分解为具有激活的鲁棒特征,帮助模型做出正确的预测,以及具有激活的非鲁棒特征,这些激活负责模型在对抗攻击时的错误预测。 然后,重新校准部分调整非鲁棒激活以恢复对模型预测可能有用的线索。 大量实验验证了 FSR 与传统去激活技术相比的优越性,并证明它以较小的计算开销将现有对抗训练方法的鲁棒性提高了 8.57%。
38. Revisiting Residual Networks for Adversarial Robustness
代码: https:// github.com/zhichao-lu/r obust-residual-network
摘要:提高卷积神经网络的对抗鲁棒性的努力主要集中在开发更有效的对抗训练方法上。 相比之下,很少有人关注分析架构元素(例如,拓扑、深度和宽度)对对抗鲁棒性的作用。 本文旨在弥合这一差距,并就架构设计对对抗鲁棒性的影响进行整体研究。 我们专注于残差网络,并在块级别和网络扩展级别考虑架构设计。 在这两种情况下,我们首先通过系统实验获得见解。 然后,我们设计了一个鲁棒的残差块,称为 RobustResBlock,以及一个称为 RobustScaling 的复合缩放规则,以按所需的 FLOP 计数分配深度和宽度。 最后,我们将 RobustResBlock 和 RobustScaling 结合起来,提出了一系列具有对抗鲁棒残差网络 RobustResNets,涵盖了广泛的模型能力。 跨多个数据集和对抗攻击的实验验证表明,RobustResNets 始终优于标准 WRN 和其他现有的鲁棒架构,使用 500K 外部数据实现了 63.7% 的最先进的 AutoAttack 鲁棒准确率,同时在参数方面紧凑了 2 倍。
39. Rate Gradient Approximation Attack Threats Deep Spiking Neural Networks
代码: https:// github.com/putshua/SNN_ attack_RGA
摘要:脉冲神经网络 (SNN) 由于其节能特性和在神经形态硬件上的潜在应用而引起了极大的关注。 最先进的 SNN 通常由简单的 Leaky Integrate-and-Fire (LIF) 神经元组成,并且在大规模数据集的图像分类任务中已与 ANN 相媲美。 然而,这些深度 SNN 的鲁棒性尚未完全被发现。 在本文中,我们首先通过实验观察到这些 SNN 中的层主要通过速率编码进行通信。 基于这种速率编码特性,我们开发了一种新的速率编码 SNN 指定的攻击方法,即速率梯度逼近攻击 (RGA)。 我们通过设计代理梯度将 RGA 攻击推广到由具有不同泄漏参数和输入编码的 LIF 神经元组成的 SNN。 此外,我们开发了时间扩展增强以生成更有效的对抗样本。 实验结果表明,我们提出的 RGA 攻击比之前的攻击更有效,并且对神经元超参数不太敏感。 我们还从实验中得出结论,由 LIF 神经元组成的速率编码 SNN 是不安全的,这需要探索由复杂神经元和其他神经元编码组成的 SNN 的训练方法。
40. Turning Strengths into Weaknesses: A Certified Robustness Inspired Attack Framework against Graph Neural Networks
摘要:图神经网络 (GNN) 在许多图学习任务中都取得了最先进的性能。 然而,最近的研究表明,GNN 容易受到测试时间规避和训练时间中毒攻击的影响,这些攻击会扰乱图形结构。虽然现有的攻击方法已经显示出有前途的攻击性能,但我们想设计一个攻击框架来进一步提高性能。特别是,我们的攻击框架受到经过可信的鲁棒性的启发,它最初被防御者用来抵御对抗攻击。 从攻击者的角度来看,我们是第一个利用其属性更好地攻击 GNN 的人。 具体来说,我们首先分别基于随机平滑推导节点针对图规避和中毒攻击的认证扰动大小。 节点的较大认证扰动大小表明该节点在理论上对图扰动更鲁棒。 这样的属性促使我们更多地关注具有较小认证扰动大小的节点,因为它们在图扰动后更容易受到攻击。 因此,我们设计了一个经过认证的鲁棒性启发攻击损失,当合并到(任何)现有攻击中时,会产生我们经过认证的鲁棒性启发攻击对应物。 我们将我们的框架应用于现有攻击,结果表明它可以显着提高现有基础攻击的性能。(比较偏投毒,而非对抗)
41. Black-Box Sparse Adversarial Attack via Multi-Objective Optimisation
摘要:深度神经网络 (DNN) 容易受到对抗图像的影响,这引发了人们对其在安全关键任务中的可靠性的担忧。 限制修改像素数量的稀疏对抗攻击已证明在导致 DNN 错误分类方面非常有效。 然而,现有方法往往难以同时最小化修改像素的数量和修改的大小,通常需要大量查询并假设对目标 DNN 的访问不受限制。 相比之下,其他限制修改像素数量的方法通常允许无限制的修改,使它们很容易被检测到。 为了解决这些限制,我们提出了一种新颖的多目标稀疏攻击算法,该算法可以在攻击过程中有效地减少修改像素的数量及其大小。 我们的算法从进化计算中汲取灵感,并结合了一种机制来确定与攻击者目标一致的目标的优先级。 我们的方法优于现有的对 CIFAR-10 和 ImageNet 训练的 DNN 分类器的稀疏攻击,同时只需要很少的查询预算,获得有竞争力的攻击成功率,同时扰乱更少的像素。 总的来说,我们提出的攻击算法通过联合最小化修改像素的数量及其大小,为当前稀疏攻击方法的局限性提供了解决方案。 我们的结果证明了我们的方法在受限场景中的有效性,突出了它增强 DNN 安全性的潜力。
42. Efficient Loss Function by Minimizing the Detrimental Effect of Floating-Point Errors on Gradient-Based Attacks
代码: https:// github.com/MIFPE/Effici ent-Loss-Function
摘要:攻击者可以通过向输入数据添加人类无法感知的扰动来欺骗神经网络; 这揭示了当前深度学习网络的脆弱性和弱鲁棒性。 已经提出了许多攻击技术来评估模型的鲁棒性。 基于梯度的攻击严重高估了鲁棒性。 本文指出,由浮点误差(包括浮点下溢和舍入误差)引起的计算梯度的相对误差是基于梯度的攻击无法准确评估模型鲁棒性的根本原因。 虽然很难消除梯度中的相对误差,但我们可以控制它对基于梯度的攻击的影响。 相应地,我们通过最小化浮点错误对攻击的不利影响,提出了一种有效的损失函数。 实验结果表明,在广泛的防御机制中进行检查时,它比其他损失函数更有效、更可靠。
43. Proximal Splitting Adversarial Attack for Semantic Segmentation
代码: https:// github.com/jeromerony/a lma_prox_segmentation
摘要:分类一直是对抗攻击研究的重点,但只有少数工作研究了适合更密集预测任务的方法,例如语义分割。 这些工作中提出的方法不能准确解决对抗分割问题,因此高估了愚弄模型所需的扰动的大小。 在这里,我们提出了基于近端分裂的这些模型的白盒攻击,以产生具有更小 l_infinity 范数的对抗扰动。 我们的攻击可以通过增强拉格朗日方法以及自适应约束缩放和掩蔽策略处理非凸最小化框架内的大量约束。 我们证明我们的攻击明显优于之前提出的攻击,以及我们为分割而改编的分类攻击,为这项密集任务提供了第一个综合基准。
44. CFA: Class-Wise Calibrated Fair Adversarial Training
代码: https:// github.com/PKU-ML/CFA
摘要:对抗训练已被广泛认为是提高深度神经网络 (DNN) 对抗样本的对抗鲁棒性的最有效方法。 到目前为止,大多数现有工作都侧重于增强整体模型的鲁棒性,在训练和测试阶段平等对待每个类。 尽管揭示了类之间鲁棒性的差异,但很少有作品试图在不牺牲整体鲁棒性的情况下在类级别上使对抗训练公平。 在本文中,我们率先从理论上和实证上研究了不同类别对对抗配置的偏好,包括扰动裕度、正则化和权重平均。 受此启发,我们进一步提出了一个类级校准的公平对抗训练框架,名为 CFA,它自动为每个类定制特定的训练配置。 基准数据集上的实验表明,我们提出的 CFA 可以提高整体鲁棒性和公平性,显着优于其他最先进的方法。
45. BiasAdv: Bias-Adversarial Augmentation for Model Debiasing
摘要:神经网络通常容易偏向数据集中固有的虚假相关性,因此无法概括无偏的测试标准。 解决该问题的一个关键挑战是严重缺乏偏差冲突训练数据(即没有虚假相关性的样本)。 在本文中,我们提出了一种新的数据增强方法,称为偏差对抗增强 (BiasAdv),它用对抗图像补充偏差冲突样本。 我们的关键思想是,对基于虚假相关性做出决策的有偏见模型的对抗攻击可能会生成合成的偏见冲突样本,然后可以将其用作学习去偏见模型的增强训练数据。 具体来说,我们制定了一个优化问题来生成对抗图像,这些图像会攻击辅助偏差模型的预测,而不会破坏所需去偏差模型的预测。 尽管它很简单,但我们发现 BiasAdv 可以生成非常有用的合成偏差冲突样本,从而使去偏差模型能够学习可概括的表示。 此外,BiasAdv 不需要任何偏差注释或偏差类型的先验知识,这使其能够广泛适用于现有的去偏差方法以提高其性能。 我们广泛的实验结果证明了 BiasAdv 的优越性,在跨各种偏差域的四个流行基准数据集上实现了最先进的性能。
46. Physically Adversarial Infrared Patches With Learnable Shapes and Locations
摘要:由于红外物体检测器在安全关键任务中的广泛应用,有必要评估它们对现实世界中对抗样本的鲁棒性。 然而,目前为数不多的物理红外攻击由于其从数字世界到物理世界的转换复杂,在实际应用中实现起来比较复杂。 为了解决这个问题,在本文中,我们提出了一种物理上可行的红外攻击方法,称为“对抗红外图块”。 考虑到红外摄像机通过捕捉物体热辐射的成像机制,对抗红外贴片通过在目标物体上贴上一块隔热材料来操纵其热分布来进行攻击。 为了增强对抗攻击,我们提出了一种新颖的聚合正则化来指导同时学习目标对象上的图块形状和位置。 因此,可以采用简单的基于梯度的优化来解决它们。 我们使用各种物体检测器验证不同物体检测任务中的对抗红外图块。 实验结果表明,与物理环境中的行人检测器和车辆检测器相比,我们的方法实现了 90% 以上的攻击成功率 (ASR),其中物体以不同的角度、距离、姿势和场景被捕获。 更重要的是,adversarial infrared patch易于实现,在物理世界中构建只需0.5小时,验证了其有效性和效率。
47. StyLess: Boosting the Transferability of Adversarial Examples
摘要:对抗攻击可以通过向良性示例添加难以察觉的扰动来误导深度神经网络 (DNN)。 对抗迁移性使对抗样本能够攻击具有未知架构或参数的黑盒 DNN,这对许多现实世界的应用程序构成威胁。 我们发现现有的迁移攻击在优化过程中不区分风格和内容特征,限制了它们的对抗迁移性。 为了提高攻击的可迁移性,我们提出了一种称为无样式扰动 (StyLess) 的新型攻击方法。 具体来说,我们提倡使用程式化网络,而不是使用普通网络作为代理模型,它通过扰动自适应实例规范化来编码不同的风格特征。 我们的方法可以防止对抗样本使用非鲁棒风格特征,并有助于生成可迁移的扰动。 综合实验表明,我们的方法可以显着提高对抗样本的可迁移性。 此外,我们的方法是通用的,当与其他攻击技术相结合时,可以胜过最先进的可迁移攻击。
48. PEFAT: Boosting Semi-Supervised Medical Image Classification via Pseudo-Loss Estimation and Feature Adversarial Training
摘要:伪标记方法已被证明有利于计算机视觉和医学成像中的半监督学习 (SSL) 方案。 大多数工作致力于从模型预测概率的角度寻找具有高置信度伪标签的样本。 而如果不仔细调整阈值,这种方式可能会导致包含错误的伪标记数据。 此外,低置信度概率样本经常被忽视并且没有充分发挥其潜力。 在本文中,我们提出了一种新的伪损失估计和特征对抗训练半监督框架,称为 PEFAT,从损失分布建模和对抗训练的角度提升多类和多标签医学图像分类的性能 . 具体来说,我们开发了一种可信赖的数据选择方案来分割高质量的伪标记集,其灵感来自可分割的伪损失假设,即干净的数据往往表现出较低的损失,而噪声数据则相反。 我们没有直接丢弃这些带有低质量伪标签的样本,而是提出了一种新的正则化方法,通过在特征级注入对抗噪声来平滑决策边界,从而从中学习区分信息。 三个医学和两个自然图像基准的实验结果验证了我们的 PEFAT 可以实现有前途的性能并超越其他最先进的方法。
49. SlowLiDAR: Increasing the Latency of LiDAR-Based Detection Using Adversarial Examples
代码: https:// github.com/WUSTL-CSPL/S lowLiDAR
摘要:基于 LiDAR 的感知是自动驾驶的核心组成部分,在车辆定位和障碍物检测等任务中发挥着关键作用。 由于基于 LiDAR 的感知管道的安全性对于安全自动驾驶至关重要,因此过去的许多努力已经研究了它在原始点云输入的对抗扰动下的脆弱性。 然而,大多数此类努力都集中在调查此类扰动对预测(完整性)的影响上,而很少有人了解对延迟(可用性)的影响,这是实时网络物理系统的一个关键问题。 我们首次对 LiDAR 检测管道和 SlowLiDAR 的可用性进行了系统研究,SlowLiDAR 是一种可最大化 LiDAR 检测运行时间的对抗扰动攻击。 该攻击通过使用可微代理克服了 LiDAR 检测管道的不可微分部分带来的技术挑战,并使用了一种新颖的损失函数,可以有效地捕捉对抗扰动对管道执行时间的影响。 广泛的实验结果表明,SlowLiDAR 可以显着增加六种最流行的 LiDAR 检测管道的延迟,同时保持不可察觉性。
50. Seasoning Model Soups for Robustness to Adversarial and Natural Distribution Shifts
摘要:对抗训练被广泛用于使分类器对特定威胁或对手具有鲁棒性,例如给定 p 范数的 l_p 范数有界扰动。 然而,现有的训练分类器对多种威胁具有鲁棒性的方法需要了解训练期间的所有攻击,并且仍然容易受到看不见的分布变化的影响。 在这项工作中,我们描述了如何获得对抗鲁棒的模型汤(即参数的线性组合),这些模型汤可以平滑地权衡不同 l_p-norm 有界对手的鲁棒性。 我们证明,这样的汤允许我们控制鲁棒性的类型和水平,并且可以在不对所有威胁进行联合训练的情况下实现对所有威胁的鲁棒性。 在某些情况下,生成的模型汤对给定的 l_p-norm 对手比专门针对同一对手的组成模型更鲁棒。 最后,我们展示了对抗鲁棒的模型 soups 可以成为适应分布变化的可行工具。
51. Jedi: Entropy-Based Localization and Removal of Adversarial Patches
代码: https:// github.com/ihsenLab/jed i-CVPR2023
摘要:现实世界的对抗物理图块最近被证明在各种计算机视觉应用程序中成功地破坏了最先进的模型。 基于输入梯度或特征分析的最有前途的防御已被证明受到最近基于 GAN 的自适应攻击的影响,这些攻击会生成现实/自然的图块。 在本文中,我们提出了 Jedi,这是一种针对对抗图块的新防御,它对现实图块攻击具有弹性,并且与现有技术相比还改进了检测和恢复。 Jedi 利用了两个新想法:(1)它使用熵分析改进了潜在图块区域的识别:我们证明了对抗图块的熵很高,即使在自然图块中也是如此; (2) 它改进了对抗图块的定位,使用能够完成图块区域并过滤掉不属于图块的具有高熵的正常区域的自动编码器。 Jedi 实现了高精度的对抗图块定位,我们证明这对于成功修复图像至关重要。 由于 Jedi 依赖于输入熵分析,因此它与模型无关,并且可以应用于预训练的现成模型,而无需更改受保护模型的训练或推理。 Jedi 在不同的基准测试中平均检测到 90% 的对抗图块,并恢复高达 94% 的成功图块攻击(相比之下,LGS 和 Jujutsu 分别为 75% 和 65%)。 即使存在能够欺骗其他防御系统的自适应现实图块,Jedi也能够继续检测。
52. Introducing Competition To Boost the Transferability of Targeted Adversarial Examples Through Clean Feature Mixup
代码: https:// github.com/dreamflake/C FM
摘要:众所周知,深度神经网络容易受到对抗样本的影响,这可能会通过细微的输入修改导致错误的预测。 这些对抗样本往往可以在模型之间迁移,但由于决策边界的显着变化,目标攻击仍然具有较低的攻击成功率。 为了增强目标对抗样本的可迁移性,我们建议在优化过程中引入竞争。 我们的想法是在存在两种新型竞争噪音的情况下制作对抗扰动:针对不同目标类别的对抗扰动和针对正确类别的友好扰动。 有了这些竞争者,即使一个对抗样本欺骗网络提取导致目标类别的特定特征,这种干扰也可以被其他竞争者抑制。 因此,在这场比赛中,对抗样本应该采取不同的攻击策略,利用更多样化的特征来压倒它们的干扰,从而提高它们对不同模型的可迁移性。 考虑到计算的复杂性,我们通过在模型推理中随机混合存储的干净特征,在特征空间中有效地模拟了来自这两类竞争者的各种干扰,并将这种方法命名为清洁特征混合(CFM)。 我们在 ImageNet-Compatible 和 CIFAR-10 数据集上的广泛实验结果表明,所提出的方法明显优于现有基线。
53. CUDA: Convolution-based Unlearnable Datasets
摘要:现代深度学习模型的大规模训练在很大程度上依赖于网络上公开可用的数据。 这种潜在的未经授权的在线数据使用导致了对数据隐私的担忧。 最近的工作旨在通过添加小的、专门设计的噪声来解决这个问题,从而为深度学习模型制作不可学习的数据。 然而,这些方法容易受到对抗训练 (AT) 的影响和/或计算量大。 在这项工作中,我们提出了一种新颖的、无模型的、基于卷积的不可学习数据集 (CUDA) 生成技术。 CUDA 是使用受控的类卷积和通过私钥随机生成的过滤器生成的。 CUDA 鼓励网络学习过滤器和标签之间的关系,而不是学习用于对干净数据进行分类的信息特征。 我们开发了一些理论分析,证明 CUDA 可以通过降低最佳贝叶斯分类器的干净数据性能来成功毒害高斯混合数据。 我们还通过各种数据集(CIFAR-10、CIFAR-100、ImageNet-100 和 Tiny-ImageNet)和架构(ResNet-18、VGG-16、Wide ResNet-34-10、DenseNet- 121、DeIT、EfficientNetV2-S 和 MobileNetV2)。 我们的实验表明,CUDA 对各种数据增强和训练方法都很鲁棒,例如平滑、不同预算的 AT、迁移学习和微调。 例如,在 ImageNet-100 CUDA 上训练 ResNet-18 在经验风险最小化 (ERM)、$L_∞$ AT 和 $L_2$AT 下分别仅达到 8.96%、40.08% 和 20.58% 的干净测试准确度。 在这里,干净训练数据上的 ERM 达到了 80.66% 的干净测试精度。 即使只有一小部分训练数据集受到扰动,CUDA 也会对 ERM 表现出不可学习的影响。 此外,我们还表明 CUDA 对专门设计用于破坏它的自适应防御具有鲁棒性。
54. Generalist: Decoupling Natural and Robust Generalization
代码: https:// github.com/PKU-ML/Gener alist
摘要:通过标准训练获得的深度神经网络一直受到对抗样本的困扰。尽管对抗训练展示了它抵御对抗样本的能力,但不幸的是,它不可避免地导致了自然泛化能力的下降。为了解决这个问题,我们将自然泛化和鲁棒泛化与联合训练分离,并为每个制定不同的训练策略。具体来说,我们没有最小化对这两个泛化错误的期望的全局损失,而是提出了一个称为 Generalist 的双专家框架,我们在其中同时使用任务感知策略训练基础学习者,以便他们可以专注于自己的领域。在训练过程中,每隔一段时间收集并组合基础学习器的参数,形成一个全局学习器。然后将全局学习器作为初始化参数分发给基础学习器以继续训练。从理论上讲,我们证明一旦基础学习器得到良好训练,通才的风险就会降低。广泛的实验验证了 Generalist 在自然示例上实现高精度的适用性,同时保持对对抗样本的相当大的鲁棒性。
55. Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving
摘要:3D 物体检测是自动驾驶中理解环境的一项基本感知任务。 Bird's-Eye-View (BEV) 表示在流行的基准测试中显着提高了带有摄像头输入的 3D 检测器的性能。 然而,对于这些与自动驾驶系统的安全性密切相关的视觉依赖 BEV 模型的鲁棒性,仍然缺乏系统的了解。 在本文中,我们评估了各种代表性模型在广泛设置下的自然和对抗鲁棒性,以充分了解它们与没有 BEV 的模型相比受显式 BEV 特征影响的行为。 除了经典设置外,我们还提出了 3D 一致性图块攻击,通过在 3D 空间中应用对抗图块来保证时空一致性,这对于自动驾驶场景来说更加现实。 通过大量实验,我们得出了几个发现:1)BEV 模型由于具有表现力的空间表示,在不同的自然条件和常见的损坏下往往比以前的方法更稳定; 2)BEV模型更容易受到对抗噪声的影响,主要是由冗余BEV特征引起的; 3)Camera-LiDAR 融合模型在多模式输入的不同设置下具有优越的性能,但 BEV 融合模型仍然容易受到点云和图像的对抗性噪声的影响。 这些发现提醒了 BEV 检测器应用中的安全问题,并可能促进更鲁棒模型的开发。