超赞!EMNLP2023 | 分享10篇关于「中文 自然语言处理」的论文
引言
这两天被EMNLP2023国际顶会的消息刷屏了,世界各地的大佬齐聚新加坡,带来了一场NLP盛宴。今年EMNLP2023 的投稿论文数量将近5000篇,长论文接收率为23.3%,短论文接收率为14%,整体接收率为21.3%。
那么关于中文自然语言处理,有哪些值得看的论文呢?今天作者给大家整理了10篇关于中文的EMNLP2023论文,希望对于研究中文NLP的小伙伴有帮助。
另外,EMNLP2023的全部论文也已经整理完成,后台回复:EMNLP2023 获取吧~
中文歌词生成框架
https://aclanthology.org/2023.emnlp-demo.8.pdf
歌词生成是自然语言生成研究中的一个众所周知的应用,之前的一些研究侧重于使用关键字、韵律等精确控制来生成准确的歌词。然而,歌词模仿涉及通过模仿风格和内容来编写新的歌词。由于缺乏平行语料库,源歌词的分析仍然是一项具有挑战性的任务。
在本文介绍了Sudowoodo,一个中文歌词模仿系统,可以根据源歌词的文本生成新的歌词。为了解决缺乏歌词模仿的并行训练语料库的问题,提出了一种新颖的框架,根据源歌词的基于关键词的歌词模型构建并行语料库。然后使用这些对(新歌词、源歌词)来训练歌词模仿模型。
中文LS数据集
https://aclanthology.org/2023.emnlp-main.3.pdf
现有的词汇替代(lexical substitution, LS)基准主要是基于注释者的经验,这会导致基准的覆盖范围有限。为此,本文提出了一种新的基于人机协作的LS数据集标注方法。通过该标注方法构建了第一个中文LS数据集CHNLS,该数据集包含33695个实例和144708个替换项,涵盖了三种文本类型(新闻、小说和维基百科)。
具体来说,作者首先将四种无监督的LS方法结合起来作为一个集成方法来生成候选替代词,然后让标注人员判断这些候选词或添加新的候选词。这种协作过程将机器生成的替代词的多样性与人类注释者的专业知识相结合。这是第一个针对中文LS任务的研究。
中英翻译PROSE基准
https://aclanthology.org/2023.emnlp-main.141.pdf
神经机器翻译(NMT)系统在将pro-drop语言(例如中文)翻译为non-pro-drop语言(例如英语)时遇到重大挑战,因为支持pro-drop要求NMT系统恢复遗漏的代词。然而,这项独特而关键的任务缺乏足够的数据集来进行基准测试。
为此,本文引入了PROSE,这是一个新的基准,适用于文档级中英文口语翻译的各种Pro-drop实例。此外,我们在此数据集上对汉语口语中的 prodrop 现象进行了深入研究,再次证实 pro-drop 降低了 NMT 系统在中英翻译中的性能。为了减轻pro-drop的负面影响,提出了Mention-Aware Semantic Augmentation,这是一种利用删除代词的语义嵌入来增强训练对的新颖方法。对四个汉英翻译语料库的实验结果表明,该方法在省略代词检索和整体翻译质量方面优于现有方法。
中文歌声合成(SVS)
https://aclanthology.org/2023.emnlp-main.200.pdf
歌声合成(SVS)致力于根据乐谱和歌词合成悦耳的歌声。目前基于 Transformer 的声学模型通常会全局处理整个序列并使用简单的L1损失。然而,这种方法忽视了序列内局部建模的重要性以及预测梅尔谱图中难以合成部分的局部优化。因此,合成的音频表现出局部不一致(例如,局部发音抖动或噪声)。
为了解决这个问题,本文提出了两种方法来增强声学模型中的局部建模。首先,设计了最近邻局部注意力,其中每个音素标记仅关注位于其之前和之后的相邻音素标记。其次,提出了音素级局部自适应权重损失函数,使模型能够更多地关注梅尔谱图中难以合成的部分。在公共中文流行歌曲和闽南歌仔戏数据集上验证了我们的方法的通用性。大量的实验证明了我们方法的有效性,与强大的基线相比,客观和主观评估都有显着改善。
中文古典诗歌处理
https://aclanthology.org/2023.emnlp-main.205.pdf
作为人类宝贵的文化遗产,中国古典诗歌有着非常独特的写作风格,经常包含一般中文文本中很少出现的特殊词汇,这对自然语言处理提出了严峻的挑战。文献中很少有人致力于处理中国古典诗歌的文本。
本文的研究成果TopWORDS-Poetry填补了这一空白,这是一种无监督方法,可以同时实现中国古典诗歌文本分割和单词发现,而无需预先给定词汇或训练语料库。实验研究证实,TopWORDS-Poetry能够成功地从《全唐诗》格律诗中识别出独特的诗歌单词,例如命名实体和文学典故,并将这些诗行分割成高质量的有意义的单词序列。
口语文本处理
https://aclanthology.org/2023.emnlp-main.241.pdf
口语文本(无论是手动转录还是自动语音识别 (ASR) 的自动转录)通常包含不流畅和语法错误,这给下游任务带来了巨大的挑战。因此,将口语转换为书面语言是可取的。不幸的是,这方面的数据集的可用性是有限的。
为了解决这个问题,提出了 CS2W,一个中文口语到书面风格转换数据集,包含从转录的会话文本中提取的 7,237 个口语句子。CS2W 涵盖四种类型的转换问题:不流利、语法错误、ASR 转录错误和口语单词。
中文关系提取
https://aclanthology.org/2023.emnlp-main.358.pdf
上下位词(“is-a”)关系建模对于许多自然语言处理 (NLP) 任务(例如分类、自然语言推理和关系提取)非常重要。现有的is-a关系抽取工作大多是在英语语言环境中进行的。由于语言表达的灵活性以及缺乏高质量的中文标注数据集,从中文非结构化文本中准确识别此类关系仍然是一个挑战。
为了解决这个问题,本文提出了一种用于中文上位词关系提取的知识增强提示学习(KEPL)方法。我们的模型使用Hearst-like模式作为先验知识。通过利用动态适配器为提示中的文本选择匹配模式,此方法同时嵌入模式和文本。此外,我们构建了中文上位词-下位词关系提取数据集,其中包含百度百科、新闻和自媒体三种典型场景。数据集上的实验结果证明了本文提出的模型的效率和有效性。
中文连贯性评估
https://aclanthology.org/2023.emnlp-main.412.pdf
本文介绍了中文论文语篇连贯语料库(CEDCC),这是一个用于评估语篇连贯性的多任务数据集。现有的研究倾向于关注语篇连贯性的独立维度,CEDCC 通过整合连贯性评分、主题连续性和语篇关系来解决这一差距。
这种方法加上详细的注释,捕捉了现实世界文本的微妙之处,并促进了中文话语连贯性分析的进展。本文贡献包括开发CEDCC、建立进一步研究的基线,以及展示连贯性对话语关系识别和自动论文评分的影响。
无监督中文分词
https://aclanthology.org/2023.emnlp-main.564.pdf
无监督中文分词(UCWS)通过使用无参数探测技术整合预训练语言模型的语言知识取得了进展。然而,由于需要使用预先训练的语言模型进行多次推理来执行分词,因此此类方法会增加训练时间。
本文介绍了一种在保持训练效率的同时增强 UCWS 性能的新方法。该方法在伪标签框架下将来自无监督分段语言模型的分段信号集成到预训练的 BERT 分类器中。实验结果表明,在八个UCWS任务中的七个上实现了最先进的性能,同时与以前的方法相比,大大减少了训练时间。
中文立场检测
https://aclanthology.org/2023.emnlp-main.582.pdf
近年来,智能对话Agent受到越来越多的关注,大型语言模型(LLM)的最新进展进一步推动了这一趋势。立场检测和对话摘要是对话Agent在涉及争论对话的应用场景中的两个核心任务 然而,对这些任务的研究受到公共数据集不足的限制,特别是对于非英语语言。
为了解决中文的语言资源差距,本文提出了 ORCHID(中文口语辩论),这是第一个用于对目标独立立场检测和辩论总结进行基准测试的中文数据集。数据集包含1218场真实世界辩论,这些辩论以中文进行,涉及476个独特主题,其中包含2436个特定立场摘要和14133个带完整注释的话语。除了为未来的研究提供通用的测试平台外,还对数据集进行了实证研究并提出了一个综合任务。结果显示了该数据集的挑战性本质,并表明将立场检测纳入辩论性对话总结中的潜力。
社区
活动
资源
关于
腾讯云开发者
扫码关注腾讯云开发者
领取腾讯云代金券
热门产品
热门推荐
更多推荐
Copyright © 2013 - 2024 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2024 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有