NLP 通过将计算语言学(基于规则的人类语言建模)与统计建模、机器学习 (ML) 和
深度学习
相结合,使计算机和数字设备能够识别、理解和生成文本和语音。
NLP 研究有助于推动
生成式 AI
时代的到来,其涉及从
大型语言模型
(LLM) 的交流技巧到图像生成模型理解请求的能力。NLP 已经成为许多人日常生活的一部分,为搜索引擎提供支持,通过语音命令、语音操作的 GPS 系统和智能手机上的问题解答数字助理来提示
聊天机器人
(如 Amazon 的 Alexa、Apple 的 Siri 和 Microsoft 的 Cortana)进行客户服务。
此外,NLP 在企业解决方案中也发挥着越来越大的作用,可以帮助业务运营实现简化和自动化、提高员工工作效率并简化业务流程。
NLP 通过从非结构化文本数据(如客户评论、社交媒体帖子和新闻文章)中提取洞察信息来增强数据分析。通过使用
文本挖掘
技术,NLP 可以发现大型数据集中不明显的模式、趋势和情绪。通过情感分析,可从文本中
提取主观特质
,比如态度、情感、讽刺、困惑、怀疑等。这通常用于将通信路由到系统或最有可能做出下一个响应的人员。
这使企业能够更好地了解客户偏好、市场状况和公众舆论。NLP 工具还可以对海量文本进行分类和总结,使分析人员更容易识别关键信息,更高效地做出数据驱动型决策。
NLP 将计算语言学的强大功能与
机器学习算法
和深度学习相结合。计算语言学利用数据科学来分析语言和语音。它包括两种主要类型的分析:句法分析和语义分析。句法分析通过解析单词的语法并应用预先编程的语法规则来确定单词、短语或句子的含义。语义分析使用句法输出从单词中提取含义,并在句子结构中解释它们的含义。
单词的解析可以采用两种形式之一。“依赖关系解析”着眼于单词之间的关系,例如识别名词和动词,而“成分分析”会生成解析树(或语法树):句子或单词串的句法结构的寻根和有序表示。生成的解析树是语言翻译器和语音识别功能的基础。理想情况下,这种分析使输出(文本或语音)可为 NLP 模型和人所理解。
自监督学习 (SSL)
尤其有助于支持 NLP,因为 NLP 需要大量标注数据来训练 AI 模型。由于这些标注数据集需要花费大量时间来注释(该过程涉及人工标记),因此收集足够的数据可能非常困难。自监督方法可以提高时间利用率和成本效益,因为它们取代了部分或全部需要手动标注的训练数据。
三种不同的 NLP 方法包括:
统计 NLP 是较晚发展起来的,它能自动提取、分类和标记文本和语音数据的元素,然后为这些元素的每种可能含义分配统计可能性。这依赖于机器学习,能够进行复杂的语言学细分,如词性标注。
统计 NLP 引入了将语言元素(例如单词和语法规则)映射到向量表示的基本技术,以便可以使用数学(统计)方法(包括回归或马尔可夫模型)对语言进行建模。这为早期的 NLP 开发提供了信息,例如拼写检查器和 T9 文本输入法(使用 9 个键输入文本,用于按键式电话)。
最近,深度学习模型已成为 NLP 的主导模式,通过使用大量原始、
非结构化
数据(文本和语音)来变得更加准确。深度学习可视为统计 NLP 的进一步发展,不同之处在于它使用了
神经网络
模型。模型分为几个子类别: