ICLR 2023 NLP方向文章
图像:RE-CALIBRATING FEATURE ATTRIBUTIONS FOR MODEL INTERPRETATION
解释机器学习模型的能力对于高风险的应用至关重要。由于其理想的理论属性,路径整合是一种广泛使用的特征归属方案,用于解释模型预测。然而,实施这一方案的方法目前依赖于绝对的归因分数来最终提供合理的解释。这不仅与具有较大归因分数的特征与模型预测更相关的前提相矛盾,而且也与归因的理想属性被证明的理论设置相冲突。我们通过设计一种方法来解决这个问题,首先为路径整合方案计算一个适当的参考。这个参照物进一步帮助确定所需整合路径上的有效内插点。 参考是按照模型损失表面的梯度上升方向计算的,而内插是通过分析模型梯度和参考与输入之间的变化进行的。最终的整合是沿着非线性路径有效进行的。我们的方案可以被纳入现有的基于积分的归因方法中。我们还设计了一个有效的采样和整合程序,使我们的方案能够有效地采用多参考路径整合。通过使用我们的方案,一系列基于积分的归因方法在局部和全局评价指标上都取得了明显的性能提升。我们的广泛结果还显示,通过我们的方法对归因技术进行重新校准,灵敏度、理智性和模型的稳健性都得到了改善。
Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models
全参数化语言模型通常需要大量的模型参数来存储在零/少镜头设置下解决多个自然语言任务所需的知识。此外,如果没有昂贵的模型重新训练,很难适应不断发展的世界知识。在本文中,我们开发了一种新的半参数化语言模型体系结构,即上下文中的知识(Ki-C),它使参数化文本到文本语言模型具有丰富的外部记忆。具体来说,外部记忆包含六种不同类型的知识:实体、字典、常识、事件、脚本和因果关系知识。对于每个输入实例,Ki-C模型自适应地选择知识类型并检索最有用的知识片段。输入实例及其知识扩充被馈送到文本到文本模型(例如T5)中以生成输出答案,其中输入和输出在提示之后都是自然语言形式。有趣的是,我们发现Ki-C可以被识别为一种特殊的专家混合(Mo-E)模型,其中知识选择器扮演路由器的角色,用于确定Mo-E中专家分配的顺序。这一关键观察启发我们开发一种新的算法,用于使用实例自适应知识选择器来训练Ki-C。作为一个知识丰富的半参数化语言模型,Ki C只需要一个小得多的参数化部分就可以在不可见的任务上实现卓越的零射击性能。通过对40个不同的任务进行评估,我们发现,具有770M个参数的Ki C-Large很容易优于大4-39倍的大型语言模型。此外,与全参数模型相比,Ki C在小得多的模型尺度上也表现出应急能力。
What learning algorithm is in-context learning? Investigations with linear models
神经序列模型,尤其是transformers,在上下文学习方面表现出显著的能力。他们可以从标记的例子序列中构建新的预测因子而无需进一步的参数更新。我们研究了一个假设,即 基于transformers的上下文学习者通过在其隐藏表示中编码特定于上下文的参数模型,并在上下文中出现新示例时更新这些隐式模型,来隐式地实现标准学习算法 。使用线性回归作为模型问题,我们为这一假设提供了三个证据来源。首先,我们通过构造证明了transformers可以实现基于梯度下降和回归参数的闭式计算的线性模型学习算法。第二,我们表明,经过训练的上下文学习者与通过梯度下降、岭回归和精确最小二乘回归计算的预测值非常匹配,随着transformers深度和数据集噪声的变化,在不同的预测值之间转换。第三,我们提供了初步证据,表明在上下文中学习者与这些预测者共享算法特征:学习者的后期层编码权重向量和矩矩阵。这些结果表明,上下文学习在算法方面是可以理解的,并且(至少在线性情况下)学习者可以通过重新发现标准估计算法来工作。
Human-Guided Fair Classification for Natural Language Processing
文本分类器在简历筛选和内容调整等高风险任务中有着很好的应用前景。这些 分类器必须是公平的,并通过不受性别或种族等敏感属性的干扰而避免歧视性决定 。然而,人类对这些扰动的直觉和捕捉它们的形式相似性规范之间存在差距。虽然现有的研究已经开始解决这一差距,但目前的方法基于硬编码的单词替换,导致表达能力有限的规范或无法完全符合人类直觉的规范(例如,在不对称反事实的情况下)。这项工作提出了通过发现表达性和直观的个人公平规范来弥补这一差距的新方法。我们展示了如何利用无监督风格转换和GPT-3的零镜头功能,自动生成语义相似的句子的表达候选对,这些句子在敏感属性上有所不同。然后,我们通过一项广泛的众包研究来验证生成的对,这项研究证实了这些对中的许多对符合人类对毒性分类公平性的直觉。最后,我们展示了如何利用有限的人类反馈来学习可用于训练下游公平感知模型的相似性规范。
Humanly Certifying Superhuman Classifiers
本文解决了当前机器学习研究中的一个关键问题:如果我们相信模型的预测可能比人类专家给出的预测更好,我们(人类)如何验证这些信念?在某些情况下,这种“超人”的表现很容易被证明;例如通过在传统双人游戏中击败顶级人类玩家。另一方面,评估可能超过人类表现的分类模型可能具有挑战性。事实上, 人类注释通常被视为基本事实,这隐含地假设人类优于任何基于人类注释训练的模型。事实上,人类注释者是主观的,会犯错误 。即使在查询oracle更昂贵或有时不可能的情况下,评估真实oracle的性能也更加客观可靠。在本文中,我们首先提出了评估人类和模型在预言机方面的性能的挑战。我们开发了一种理论,用于评估与预言相比的准确性,只使用不完美的人类注释作为参考。我们的分析提供了一个可执行的方法来检测和证明这种环境下的超人性能,我们相信这将有助于理解当前分类研究的阶段。我们用已知的预言验证了边界的收敛性和我们的理论在精心设计的玩具实验上的假设。此外,我们通过对大型自然语言处理任务进行元分析来证明我们的理论的实用性,并表明,在我们温和的假设下,近年来的一些模型已经以高概率实现了超人的性能,这表明我们基于oracle的新性能评估指标已经过时,无法替代广泛使用的基于不完美人类注释的准确性指标。
Few-Shot Domain Adaptation For End-to-End Communication
使用自动编码器( an encoder, channel, and decoder modeled using neural networks)的communication system的端到端学习问题最近被证明是一种有效的方法。在实际采用这种学习方法时面临的挑战是,在不断变化的信道条件(例如,无线链路)下,需要对自动编码器进行频繁的再训练,以保持低的解码错误率。由于再训练既耗时又需要大量样本,因此当信道分布快速变化时,它变得不切实际。我们建议 使用不改变编码器和解码器网络的快速且样本有效(少镜头)域自适应方法来解决这个问题 。(using a fast and sample-efficient (few-shot) domain adaptation method that does not change the encoder and decoder networks. )与传统的训练时间无监督或半监督域自适应不同,这里我们有一个来自源分布的经过训练的自动编码器,我们希望(在测试时)只使用一个小的标记数据集,而不使用未标记的数据,将其适配到目标分布。我们专注于基于高斯混合密度网络(MDN)的生成信道模型,并使用一组仿射变换提出了MDN的正则化、参数有效的自适应。然后,学习的仿射变换用于在解码器输入处设计最优变换以补偿分布偏移,并有效地呈现给接近源分布的解码器输入。对无线设置常见的许多模拟分布变化进行的实验,以及一个真实的毫米波FPGA测试台,证明了我们的方法在使用很少的目标域样本进行自适应时的有效性。
Certified Training: Small Boxes are All You Need
为了获得adversarial robustness的确定性保证,使用了专门的训练方法。SABR,我们提出了一种新的此类认证训练方法,基于以下关键见解:传播对抗性输入区域中一个小但精心挑选的子集的区间界限(propagating interval bounds for a small but carefully selected subset of the adversarial input region)足以在整个区域上近似最坏情况的损失,同时显著减少近似误差。我们在广泛的经验评估中表明, SABR在扰动幅度和数据集的标准精度和可认证精度方面优于现有的认证防御,这表明一种新的认证训练方法有望缓解鲁棒性-精度权衡。
Seeing Differently, Acting Similarly: Heterogeneously Observable Imitation Learning
在许多现实世界的模仿学习任务中,演示者和学习者必须在不同的观察空间下行动。这种情况给现有的模仿学习方法带来了很大的障碍,因为大多数的模仿学习方法都是在同质的观察空间下学习政策。另一方面,以前在不同观察空间下的研究有一个强烈的假设,即在整个学习过程中这两个观察空间是共存的。然而,在现实中,由于获得专家观察的成本很高,观察共存将是有限的。在这项工作中,我们研究了在异质观测下有限观测共存的这个挑战性问题。异质观测模仿学习(Heterogeneously Observable Imitation Learning,HOIL)。我们确定了HOIL的两个基本问题:动态不匹配和支持不匹配,并进一步提出了基于重要性加权和拒绝学习的重要性加权(IWRE)算法来解决HOIL问题。实验结果表明,IWRE可以解决各种HOIL任务,包括在Atari领域将基于视觉的演示转化为基于随机存取存储器(RAM)的策略的挑战性任务,即使 视觉 观察有限。
Ask Me Anything: A simple strategy for prompting language models
大型语言模型(LLMs)可以很好地转移到开箱即用的新任务中,只需给出一个自然语言提示,演示如何执行任务,而无需额外的训练。提示是一个脆弱的过程,对提示的微小修改会导致模型预测的巨大变化,因此,大量的努力被用于为一项任务设计一个艰苦的 "完美提示" 。为了减轻提示中涉及的高度努力,我们反过来问,收集多个 "不完美的提示 "并将其汇总,是否能导致高质量的提示策略。我们的观察促使我们提出了提示方法,即 "问我任何事"(AMA)。我们首先发展了对有效提示格式的理解,发现鼓励开放式生成的问题回答(QA)提示("谁去了公园?")往往优于那些限制模型输出的提示("输出真或假")。我们的方法递归地使用LLM本身,将任务输入转化为有效的QA格式。我们应用这些提示,为输入的真实标签收集几张噪音投票。我们发现这些提示可以有非常不同的准确度和复杂的依赖性,因此建议使用弱监督,即结合噪声预测的经典程序,来产生最终的预测结果。我们在开源GPT模型系列(如Neo、BLOOM、OPT和T0)中对AMA进行了评估,结果表明,在小型和大型语言模型中,平均性能比几发基线提升了10.2%。这种简单的策略使开源的GPT-Neo-6B模型能够匹配并超过少数几个模型的性能。从这些任务的平均值来看,GPT-Neo-6B模型的性能超过了少数的GPT3-175B。
Unsupervised Meta-learning via Few-shot Pseudo-supervised Contrastive Learning
无监督元学习的目的是在由无标签数据构建的任务分布中学习可概括的知识。在这里,主要的挑战是如何在没有标签信息的情况下为元学习构建不同的任务;最近的工作提出了通过预训练的表征或通过生成模型创建合成样本来创建,例如,伪标签。然而,由于在元学习过程中严重依赖不可改变的伪标签,以及表征或生成的样本的质量,这样的任务构建策略从根本上来说是有限的。为了克服这些限制,我们提出了一个简单而有效的 无监督元学习框架,称为伪监督对比(PsCo),用于少数samples分类 。我们受到最近自监督学习文献的启发;PsCo利用动量网络和以前批次的队列来改善伪标签,并以渐进的方式构建多样化的任务。我们广泛的实验证明,在各种领域内和跨领域的少量分类基准下,PsCo胜过现有的无监督元学习方法。我们还验证了PsCo很容易扩展到大规模的基准,而最近的先验元方案却不是这样。
Optimizing Bi-Encoder for Named Entity Recognition via Contrastive Learning
我们提出了一个用于命名实体识别(NER)的双编码器框架,该框架应用对比学习将候选文本跨度和实体类型映射到相同的矢量表示空间中。先前的工作主要将NER作为序列标记或跨度分类。相反,我们将NER构建为一个表示学习问题,它最大限度地提高了实体提及的向量表示与其类型之间的相似性。这使得处理嵌套和平坦的NER变得容易,并且可以更好地利用嘈杂的自我监督信号。这种用于NER的双编码器公式的一个主要挑战在于将非实体跨度与实体提及分开。我们没有像大多数以前的方法那样将所有非实体跨度显式标记为同一类(),而是引入了一种新的动态阈值损失,与标准对比损失一起学习。实验表明,我们的方法在有监督和远距离监督的环境中都表现良好,对于嵌套和平面NER一样,在通用领域的标准数据集(例如ACE2004,ACE2005,CoNLL2003)和高价值垂直领域(例如,GENIA,NCBI,BC5CDR,JNLPBA)中建立了新的技术水平
Logical Entity Representation in Knowledge-Graphs for Differentiable Rule Learning
概率逻辑规则学习在逻辑规则挖掘和知识图谱完成方面表现出了较强的实力。它学习逻辑规则,通过推理知识图中的现有边缘来预测缺失的边缘。然而,以前的努力主要局限于建模链状的Horn子句,如R1(x; z) ^ R2(z; y) H(x; y)。此公式忽略了来自实体变量 x、y 和 z 的相邻子图的其他上下文信息。直观地说,这里有很大的差距,因为已经发现局部子图为知识图谱的完成提供了重要信息。受这些观察的启发,我们提出了逻辑实体重新呈现(LERP)来编码知识图中实体的上下文信息。LERP 被设计为实体相邻子图上的概率逻辑函数向量。它是一种可解释的表示,同时允许可微分的优化。然后,我们可以将 LERP 纳入概率逻辑规则学习中,以学习更具表现力的规则。实证结果表明,使用LERP,我们的模型在知识图谱完成方面优于其他规则学习方法,与最先进的黑盒方法相当甚至更好。此外,我们发现我们的模型可以发现一个更具表现力的逻辑规则家族。LERP 还可以进一步与 TransE 等嵌入学习方法相结合,使其更具可解释性。
Learning Uncertainty for Unknown Domains with Zero-Target-Assumption
我们介绍了我们的最大熵奖励强化学习(MERRL)框架,该框架选择训练数据以实现更准确的自然语言处理(NLP)。由于传统的数据选择方法基于测试领域知识而不是现实生活中的数据来选择训练样本,因此它们经常在专利和Twitter等未知领域失败。 我们的方法选择 最大化由熵测量的信息不确定性的训练样本,包括观察熵,如经验香农熵、最小熵、R\'enyi 熵和预测熵,以涵盖更多可能出现在未知世界中的查询 。我们使用正则化 A2C 和 SAC 的 MERRL 在语言建模中实现了高达 -99.7 的困惑度降低(相对 -43.4\%),在情感分析中实现了 +25.0 的准确率提高(+40.0\%),在各个领域的命名实体识别中提高了 +5.0 F1 分数(+30.8\%),在未知测试集上展示了强大的泛化能力。
Toward Adversarial Training on Contextualized Language Representation
除了最近在预训练语言模型(PLM)之上的文本领域的对抗性训练(AT)的成功故事之外,我们的实证研究展示了AT在一些任务上的不一致的收益,例如常识推理、命名实体识别。本文从PLM编码器输出的语境化语言表示的角度研究了AT。我们发现目前的 AT攻击倾向于产生次优的对抗性例子,可以愚弄解码器部分,但对编码器的影响不大。 然而,我们发现有必要有效地偏离后一种情况,以使AT获得收益。基于这一观察,我们提出了简单而有效的CreAT(Contextit{Contextualized representation-Adversarial Training}),其中的攻击被明确地优化为偏离编码器的上下文表示。它允许对抗性例子的全局优化,可以愚弄整个模型。我们还发现CreAT产生了一个更好的优化对抗性例子的方向,让它们对超参数不太敏感。与AT相比,CreAT在更广泛的任务上产生了一致的性能提升,并且被证明对语言预训练更有效,因为在预训练中,只有编码器部分被保留给下游任务。我们在一系列具有挑战性的基准测试中取得了新的最先进的性能,例如AdvGLUE(59.1→61.1)、HellaSWAG(93.0→94.9),anli(68.1→69.3).
Hierarchical Relational Learning for Few-Shot Knowledge Graph Completion
知识图(KGs)在推理能力方面很强大,但也因其不完整性和关系的长尾分布而臭名昭著。为了应对这些挑战并扩大幼儿园的覆盖范围,少镜头幼儿园完成旨在预测涉及新关系的三胞胎,而只提供了几个训练三胞胎作为参考。先前的方法专注于设计本地邻居聚合器以学习实体级信息和/或在三元组级施加顺序依赖性假设以学习元关系信息。然而,在学习少数镜头关系的元表示时,成对的三元组级交互和上下文级关系信息在很大程度上被忽略了。在本文中,我们提出了一种用于少镜头KG完成的分层关系学习方法(Hi-Re)。通过联合捕获三个级别的关系信息(实体级、三元组级和上下文级), Hi-Re可以有效地学习和细化少数镜头关系的元表示,从而很好地推广到新的不可见关系。(By jointly capturing three levels of relational information (entity-level, triplet-level and context-level) , HiRe can effectively learn and refine the meta representation of few-shot relations, and consequently generalize well to new unseen relations)在两个基准数据集上的大量实验验证了Hi-Re优于最先进的方法。Hi-Re的代码可在补充材料中找到,并将在验收后发布。
Mutual Partial Label Learning with Competitive Label Noise
部分标签学习(PLL)是一个重要的弱监督学习问题,其中每个训练实例都与一组包括真实标签和噪声标签的候选标签相关联。大多数现有的PLL方法假设候选噪声标签是随机选择的,这在现实世界的学习场景中很难成立。在本文中,我们考虑了一种更现实的PLL场景, 该场景具有竞争性噪声标签,与随机噪声标签相比,这些标签更难与真实标签区分开来 。我们提出了一种 新的基于互学习的PLL方法ML-PLL 来解决这一挑战性问题。ML-PLL通过交互式互学习和标签校正来协作学习基于预测网络的分类器和基于类原型的分类器。此外,我们使用变换网络来建模真实标签和候选噪声标签之间的关联关系,并将其与预测网络一起学习,以匹配训练数据中观察到的候选标签并增强标签校正。在几个基准PLL数据集上进行了广泛的实验,所提出的ML-PLL方法证明了部分标签学习的最先进性能。
Contextual Convolutional Networks
本文提出了一种新的卷积神经网络,名为 上下文卷积网络,它可以作为视觉识别的通用骨干 。大多数现有的卷积骨干网络都遵循从表征到分类的范式,输入的表征首先由类别无关的卷积运算产生,然后输入分类器以完成特定的感知任务(如分类和分割)。在本文中,我们偏离了这一经典范式,并建议在 卷积中增加潜在的类别成员作为上下文的先验,以便进行上下文的表征学习。 具体来说,前一阶段的前k个可能的类别被编码为一个上下文先验向量。基于这个向量和前面的特征,空间采样位置的偏移和内核权重被生成以调节卷积操作。新的卷积可以很容易地取代现有CNN中的普通对应物,并且可以很容易地通过标准的反向传播进行端到端的训练,而不需要额外的监督。上下文卷积网络的品质使其与广泛的视觉任务兼容,并使最先进的架构ConvNeXt-Tiny在ImageNet分类的前1级精度上提高了1.8%。所提出的模型的优越性揭示了视觉任务中情境化表示学习的潜力。
Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval
最近,诸如mBERT和XLM-R等多语言预训练语言模型(PLM)在跨语言密集检索方面取得了令人印象深刻的进展。尽管它取得了成功,但它们是通用PLM,而为跨语言检索定制的多语言PLM仍然未被开发。受平行文档中句子的顺序大致相同(这在不同语言中是普遍的)这一观察结果的启发,我们建议对这种顺序句子关系进行建模,以促进跨语言表征学习。具体地说,我们提出了 一种称为掩蔽句子模型(MSM)的多语言PLM,它由一个用于生成句子表示的句子编码器和一个应用于文档中句子向量序列的文档编码器组成 。文档编码器为所有语言共享,以建模跨语言的 通用顺序语句关系 。为了训练该模型,我们提出了一个掩蔽的句子预测任务,该任务通过采样否定的分层对比损失来掩蔽和预测句子向量。对四个跨语言检索任务的综合实验表明,MSM显著优于现有的高级预训练模型,证明了我们方法的有效性和更强的跨语言检索能力。代码和型号将可用。
Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic
自然语言推理(NLI)旨在确定两个句子之间的逻辑关系,如纠缠、矛盾和中性。近年来,深度学习模型已成为NLI的主流方法,但它们缺乏可解释性和可解释性。在这项工作中,我们通过弱监督逻辑推理解决了NLI的可解释性,并提出了一种可解释短语推理(EPR)方法。我们的模型首先检测短语作为语义单元,并在两个句子中对齐相应的短语。然后,该模型预测对齐短语的NLI标签,并通过模糊逻辑公式导出句子标签。我们的EPR几乎处处可微,因此可以对系统进行端到端训练。通过这种方式,我们能够以弱监督的方式提供短语逻辑关系的明确解释。我们进一步表明,这种推理结果有助于文本解释的生成。
CUTS: Neural Causal Discovery from Irregular Time-Series Data
从时间序列数据中发现因果关系一直是机器学习的中心任务 。最近,格兰杰因果关系推理因其良好的解释性和与新兴的深度神经网络的高度兼容性而获得了发展势头。然而,大多数现有的方法都假设输入数据是结构化的,当遇到随机缺失的条目或采样频率不一致的数据时,它们会大大退化,这阻碍了它们在实际场景中的应用。为了解决这个问题,我们在这里提出了CUTS,这是一种神经格兰杰因果发现算法,用于联合估算未观察到的数据点并构建因果图,通过在迭代框架中插入两个相互促进的模块:(i)潜在数据预测阶段:设计延迟监督图神经网络(DSGNN),以产生幻觉并注册可能具有高维度和复杂分布的非结构化数据;(ii)因果图拟合阶段:在稀疏惩罚下,用估算数据构建因果邻接矩阵。实验表明,CUTS有效地从不规则时间序列数据中推断因果图,其性能显著优于现有方法。我们的方法是将因果发现应用于具有非理想观察的实际应用的一个有希望的步骤。
Scenario-based Question Answering with Interacting Contextual Properties
在基于场景的问答(QA)任务中,模型被要求找到适合于与问题相关联的用户场景的答案,并识别场景中缺少的、但答案必须保持的信息。场景通常包括用户的多个财产,例如年龄、就业状态和收入水平,用于“我可以从该福利中索赔多少”的问题。文档中给出了与潜在答案相关的财产,它将说明答案保持的必要条件。文件还可以规定条件之间的相互作用,例如, 使用“以下条件之一必须适用”这样的文本。尽管理解条件之间的关系对于解决这一具有挑战性的QA任务至关重要,但到目前为止,在建模方面所做的工作有限。 在本文中,我们提出了T-Reasoner模型,该模型通过三个共同学习的模块来解决这个问题:一个检查场景是否满足条件的蕴涵模块、一个从文档中定位合格答案的解码模块、,以及推理模块,其推断条件之间的关系并执行推理步骤以确定逻辑一致的答案并识别缺失的条件。T-Reasoner在基于场景的综合QA数据集上优于强大的基线,并在两个基于场景的QA基准上实现了新的最先进水平,优于先前的最佳模型3-10个点。
Augmentation Component Analysis: Modeling Similarity via the Augmentation Overlaps
自我监督学习旨在学习语义相似样本接近的嵌入。对比学习方法将样本的视图拉在一起,并将不同的样本推开,这利用了增强的语义不变性,但忽略了样本之间的关系。为了更好地利用增强功能,我们观察到语义相似的样本更有可能具有相似的增强视图。 因此,由扩增分布组成的扩增特征可以作为理想的嵌入,它们之间的相似性揭示了两个样本的扩增重叠的程度。在没有明确估计其值的计算负担的情况下,我们提出了增强组件分析(ACA),该分析具有类似对比的损失来学习主要组件,并具有动态投影损失来嵌入数据。ACA等于PCA的有效降维,并提取低维嵌入,理论上保持了样本之间扩增分布的相似性。实验结果表明,我们的方法可以在不同的基准上获得与各种传统对比学习方法相比的竞争结果。
How to Exploit Hyperspherical Embeddings for Out-of-Distribution Detection?——图像
分布外(OOD)检测是可靠机器学习的关键任务。表示学习的最新进展产生了基于距离的OOD检测,其中如果测试样本相对远离分布(ID)类的质心或原型,则将其检测为OOD。然而,现有方法直接去除了现成的对比损失,这些对比损失足以对ID样本进行分类,但当测试输入包含OOD样本时,这些方法没有得到最佳设计。在这项工作中,我们提出了CIDER,这是一种新的表示学习框架,它利用超球面嵌入进行OOD检测。CIDER联合优化了两种损失,以增强ID-OOD可分离性:色散损失促进不同类别原型之间的大角度距离,而紧凑性损失则鼓励样本接近其类别原型。我们分析并建立了OOD检测性能与超球面空间中嵌入财产之间尚未探索的关系,并证明了离散性和紧性的重要性。CIDER建立了卓越的性能,在FPR95中以19.36%的优势超过了最新的竞争对手。
TaskPrompter: Spatial-Channel Multi-Task Prompting for Dense Scene Understanding-图像
在统一的网络框架中同时从多个任务中学习有效表示是多任务密集视觉场景理解的基本范式。这需要联合建模 (i)任务通用表示和(ii)任务特定表示,以及(iii)跨任务表示交互。 现有的工作通常使用单独设计的结构对这三个视角进行建模,使用共享网络模块进行任务通用学习,使用不同模块进行任务特定学习,并在这些组件之间建立连接以进行跨任务交互。文献中几乎没有探索过以端到端的方式在每个网络层中对这三个视角进行建模,这不仅可以最小化为三个多任务表征学习目标精心设计经验结构的工作量,而且还大大提高了多任务网络的表示学习能力,因为所有的模型容量都将用于一起优化三个目标。在本文中,我们提出了一种新的空间通道多任务提示转换器框架——任务提示器来实现这一目标。具体来说,我们设计了一组空间通道任务提示,并使用注意力机制学习它们与每个变换器层中共享图像标记的空间和通道交互,因为聚集空间和通道信息对于密集预测任务至关重要。每个任务提示学习一个任务的任务特定表示,而所有提示可以共同有助于共享图像令牌表示的学习,并且不同任务提示之间的交互建模跨任务关系。为了利用来自transformer的学习到的空间通道任务提示对多个任务的密集预测进行解码,我们相应地设计了密集任务提示解码机制,该机制使用任务提示查询共享图像令牌以获得空间和通道特定任务表示。在两个具有挑战性的多任务密集场景理解基准(即NYUD-V2和PASCAL上下文)上的大量实验表明了所提出的框架的优越性,任务提示器在多任务密集预测上建立了显著的最先进性能。
Panning for Gold in Federated Learning: Targeted Text Extraction under Arbitrarily Large-Scale Aggregation
随着 联邦学习(FL) 的成熟,针对FL系统的隐私攻击也变得越来越多、越来越复杂。对语言模型的攻击已经从恢复简单分类任务中的单个句子发展到恢复更大部分的用户数据。当前针对联邦语言模型的攻击是序列不可知的,目的是从FL更新中提取尽可能多的数据——通常以牺牲任何特定序列的保真度为代价。因此,当前的攻击无法在大规模聚合下提取任何有意义的数据。在现实环境中,攻击者最关心的是包含敏感个人信息的一小部分用户数据,例如包含短语“我的信用卡号是…”的序列。在这项工作中,我们提出了对FL的第一次攻击,该攻击实现了对包含隐私关键短语的序列的定向提取,由此我们使用恶意修改的参数来允许转换器本身从聚合的用户数据中过滤相关序列,并在梯度更新中对它们进行编码。我们的攻击可以有效地提取感兴趣的序列,即使是针对非常大规模的聚合。
Extracting Robust Models with Uncertain Examples
模型提取攻击被证明是对机器学习即服务(MLaaS)的严重隐私威胁。已经设计了多种技术来窃取具有高精度和保真度的远程机器学习模型。然而,如何提取具有类似对抗性攻击弹性的鲁棒模型从未被研究过。本文是针对这一目标的首次研究。我们首先分析那些现有的提取解决方案,要么无法保持模型的准确性或模型的鲁棒性,要么导致鲁棒的过度拟合问题。然后,我们提出了边界熵搜索小偷(BEST),这是一种新的模型提取攻击,以在有限的攻击预算下实现准确和鲁棒性的提取。BEST生成了一种新的不确定示例,用于查询和重建受害者模型。这些样本在不同类别中具有统一的置信度分数,这可以完美地平衡模型准确性和鲁棒性之间的权衡。大量实验表明,在有限的数据下,BEST在不同的数据集和模型架构上优于现有的攻击方法。它还可以有效地使最先进的提取防御失效
Can discrete information extraction prompts generalize across language models?
我们研究了从语言模型中有效地提取信息的自动诱导提示是否也可以开箱即用,来探测其他语言模型中的相同信息。在确认自动提示算法诱导的离散提示在插槽填充任务中优于手动和半手动提示之后,我们证明了在模型上学习并在另一个模型上测试的自动提示的性能下降。我们介绍了一种通过在训练时混合语言模型来诱导提示的方法,这会导致提示在模型之间很好地泛化。我们对诱导的提示进行了广泛的分析,发现更一般的提示包括更大比例的现有英语单词,并且在其组成标记中具有更少的顺序依赖性和更均匀的信息分布。我们的工作提供了初步证据,证明可以生成离散提示,这些提示可以被一次诱导并用于许多不同的模型,并对这些提示的财产进行了深入研究。
An Exact Poly-Time Membership-Queries Algorithm for Extracting a Three-Layer ReLU Network
我们考虑从查询中学习Re-LU网络的自然问题,该网络最近被模型提取攻击重新激活。在这项工作中,我们提出了一种 多项式时间算法 ,该算法可以在温和的一般位置假设下从查询中学习深度为2的Re-LU网络。我们还提出了一种多项式时间算法,该算法在温和的一般位置假设下,可以从查询中学习丰富的深度三重LU网络。例如,它可以学习第一层神经元的数量小于第二层神经元的维数和数量的大多数网络。
Spacetime Representation Learning
我们在现实世界中遇到的许多数据都可以表示为有向图。在这项工作中,我们通过连接的面向时间的洛伦兹流形(广义相对论中称为“时空”)引入了有向图的一般表示族。时空本质上包含一种因果结构,表明流形上的点之间是否存在因果或甚至时间顺序,称为事件。当节点作为事件嵌入时空时,这种时间顺序允许我们通过施加正确的顺序来自然地表示有向边。先前的机器学习工作只考虑最简单的洛伦兹流形上的嵌入,或者不利用洛伦兹预长度空间和有向图之间的联系。我们引入了一种定义良好的方法来将数据映射到一个通用的时空族。我们在无向图的层次提取、有向链接预测和有向图的表示等任务中对我们的框架进行了经验评估。