近日,人工智能促进协会(Association for the Advancement of Artificial Intelligence,简称“AAAI”)公布了论文录用结果,我院信息学部有六篇论文入选,分别为:
《通过读者感知的话题建模和重要性检测生成多样化的评论》(Generating Diversified Comments via Reader-Aware Topic Modeling and Saliency Detection,作者:2016级博士生王伟,导师:郑海涛)
《海量互联网语音数据情感分析:一种基于半监督课程学习增强的深度学习方法》(Inferring Emotion from Large-scale Internet Voice Data: A Semi-supervised Curriculum Augmentation based Deep Learning Approach,作者:2017级博士生周素平,导师:贾珈,联合指导老师:吴志勇)
《知识精炼:从解耦标签中学习》(Knowledge Refinery: Learning from Decoupled Label,作者:2018级硕士生丁强刚,导师:夏树涛)
《联合风险如何影响无监督域适应方法的性能》(How does the Combined Risk Affect the Performance of Unsupervised Domain Adaptation Approaches,作者:2018级硕士生钟立,导师:袁博)
《面向数据稀缺领域BERT蒸馏的自动数据增强方法》(Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation,作者:2019级硕士生冯玲云,导师:郑海涛)
《基于深度超球面量化编码的弱监督图像检索》(Weakly Supervised Deep Hyperspherical Quantization for Image Retrieval,作者:2020级硕士生王锦鹏、2017级博士生陈斌,导师:夏树涛)
图(从左至右,自上而下)为王伟、钟立、冯玲云、周素平、王锦鹏、丁强刚、陈斌
自动评论生成是验证模型对新闻内容理解和语言生成能力的一项特殊而富有挑战性的任务。评论不仅传达了新闻文章中突出而有趣的信息,而且隐含着读者的各种不同特征,而这些特征是多样性的重要线索。然而,大多数的评论生成方法只关注于重要信息的提取,而忽略了评论所隐含的读者相关的因素。因此,王伟同学在论文中提出了一个读者感知的主题建模和重要性检测的框架来提高生成评论的质量。针对读者感知的主题建模,研究设计了一种变分生成聚类算法,用于从读者评论中进行潜在语义学习和主题挖掘。在重要性检测方面,研究对新闻内容引入伯努利分布估计来选择重要信息。所获得的主题表示以及所选择的重要信息被合并到译码器中,以产生多样化和信息丰富的评论。
图为通过读者感知的话题建模和重要性检测生成多样化的评论模型
对智能语音助手(如Siri、搜狗语音助手等)中的用户查询进行有效的情感分析,可以有助于语音助手提供更人性化的响应和服务。海量语音助手用户带来了多样化的用户情感表达,但如何在语音助手中实现更有效的海量互联网语音数据情感分析呢?传统语音情感识别研究主要基于表演语音数据集,其依赖的数据集说话人有限,但说话人情感表达强烈而清晰。因此,本文提出了一种利用情感凸显的表演语音数据,来增强具有多样化情感表达的大规模无标注互联网语音数据的情感分析方法。具体来说,文章提出了一个基于课程学习的半监督多模态深度学习框架。首先,为了学习更通用的情感信息,研究采用了一种基于课程学习的分步训练策略,该策略先用情感凸显、均衡样本表演语音数据来指导模型训练,然后再训练情感不凸显、不均衡的互联网语音数据。第二,为了更好学习多样化的情感表达,研究设计了一个多路径混合半监督多模态深度神经网络(Multi-path Mix-match Multimodal Deep Neural Network,简称“MMMD”),它不仅可以有效地学习多模态特征表示,还采用了混合半监督方法训练有标注和无标注数据,来使模型具有更好的泛化性和鲁棒性。实验在50万句来自搜狗语音助手的数据集、2397句表演数据集以及公开数据集IEMOCAP上验证了所提方法的有效性。
图为基于epoch-wise的增强半监督语音情感分析模型结构图
尽管神经网络在很多任务上取得令人称道的效果,但是其泛化能力饱受质疑。近些年来,为了提升神经网络的泛化能力,很多相关的正则化技术被提出,如 Dropout、批规范化、L2权重规范化等。这些方法主要是对神经网络的权重进行正则化。另外,基于软化标签的动机,一些标签正则化方法如标签平滑技术、知识蒸馏技术等也被提出。然而,标签平滑技术中忽略了标签相关性,而知识蒸馏技术需要复杂繁琐的教师-学生二阶段训练策略。在本文中,丁强刚同学提出了知识精炼技术,该技术可以在线地学习标签相关性而无需繁琐的教师-学生二阶段训练策略,同时将所学习的标签相关性转换为所提出的残差标签,从而实现了将软标签解耦为解耦标签组(硬标签和残差标签)。相比于过去的软标签,解耦标签具有更好的性能和更高效的训练策略。为了展现知识精炼技术的效果,本文在计算机视觉和自然语言处理的多个任务上进行了验证,实验结果展现了一致的效果提升,并优于所有的基线方法。
图为知识精炼技术的训练策略
基于无监督域适应的误差理论界,很多相关算法被提出,但这些算法只考虑到理论界中的前两项:源域风险和分布差异。理论界中的最后一项(联合风险)由于缺乏目标域的标签,难以估计而被现有算法所忽略。为了探究联合风险对域适应性能的影响,钟立同学首次从理论上证明出联合风险和条件分布差异密切相关,这说明了联合风险对域适应性能十分重要。此文进一步提出一个估计联合风险的代理和双损失理论界来提高域适应的性能。文中充分的实验证明了所提出的方法(E-MixNet)在三个公开的数据集上取得了state-of-the-art的效果,将所提的联合风险代理加入四个无监督域适应的代表性方法均能够提升他们的性能(最大提升5.5个百分点)。
图为组合风险与双损失理论界
图为网络结构
BERT等大规模预训练模型已经在各种NLP中展现了卓越的性能,但是模型体积十分庞大,难以训练及应用这些模型,特别是把他们部署到资源受限的实时场景中。BERT蒸馏将训练好的大模型(教师模型)中的知识迁移到小模型(学生模型)中,是模型压缩的经典方法。然而当目标领域数据稀缺时,学生模型并不能从教师模型学习到充分的知识。研究的模型从和目标领域相近的数据分布中生成样本,并采用基于强化学习的数据选择器根据学生模型的表现优化数据增强策略,自动地从信息丰富的源领域迁移到有效的知识辅助目标领域的学习。实验结果证明文中的方法尤其在数据稀缺领域显著提升了知识蒸馏的效果。
图为自动数据增强模型结构
量化编码学习是一类哈希学习方法,用于提升大规模图像检索的效率。近年来有很多深度量化编码算法被提出,取得了先进的检索效果,但这些算法依赖于大量的人工标注数据,成本较高,导致深度量化编码在实际应用中难以部署。王锦鹏和陈斌等人提出利用大量易于获取的网络图片学习量化编码,并把用户上传图片时附带的文本作为监督信息。由于这些信息不一定精确地描述图片内容,此文把它们称为“弱标签”。针对弱标签的稀疏和语义模糊的特点,文章使用一个基于文本嵌入的弱标签关系图,进行标签语义增强及同义标签合并。为了得到保留更多语义的量化编码表示,文章使用自适应余弦间隔损失和余弦量化损失,在单位超球面上进行特征学习和量化编码。文章通过在两个公开的大规模网络图片数据集上评测,验证了该方法可取得超越当前最先进的深度哈希方法的检索效果。
图为基于深度超球面量化编码的弱监督图像检索模型结构
人工智能促进协会是人工智能领域的主要学术组织之一,该协会主办的年会也是一个顶级的人工智能学术会议。AAAI 2021联合主席 Kevin Leyton-Brown 在Twitter上表示,接受的投稿论文总数达到“惊人的高技术水平”,已经超过了9000篇,共有1692篇论文被录取,录取率为21%,仅比去年高0.4%。
文、图:信息学部
编辑:柴头