相关文章推荐
温暖的遥控器  ·  java httpclient post ...·  2 年前    · 
想出家的拐杖  ·  [Qt]setGeometry: ...·  2 年前    · 

NLP 通过将计算语言学(基于规则的人类语言建模)与统计建模、机器学习 (ML) 和 深度学习 相结合,使计算机和数字设备能够识别、理解和生成文本和语音。

NLP 研究有助于推动 生成式 AI 时代的到来,其涉及从 大型语言模型 (LLM) 的交流技巧到图像生成模型理解请求的能力。NLP 已经成为许多人日常生活的一部分,为搜索引擎提供支持,通过语音命令、语音操作的 GPS 系统和智能手机上的问题解答数字助理来提示 聊天机器人 (如 Amazon 的 Alexa、Apple 的 Siri 和 Microsoft 的 Cortana)进行客户服务。

此外,NLP 在企业解决方案中也发挥着越来越大的作用,可以帮助业务运营实现简化和自动化、提高员工工作效率并简化业务流程。

NLP 通过从非结构化文本数据(如客户评论、社交媒体帖子和新闻文章)中提取洞察信息来增强数据分析。通过使用 文本挖掘 技术,NLP 可以发现大型数据集中不明显的模式、趋势和情绪。通过情感分析,可从文本中 提取主观特质 ,比如态度、情感、讽刺、困惑、怀疑等。这通常用于将通信路由到系统或最有可能做出下一个响应的人员。

这使企业能够更好地了解客户偏好、市场状况和公众舆论。NLP 工具还可以对海量文本进行分类和总结,使分析人员更容易识别关键信息,更高效地做出数据驱动型决策。

NLP 将计算语言学的强大功能与 机器学习算法 和深度学习相结合。计算语言学利用数据科学来分析语言和语音。它包括两种主要类型的分析:句法分析和语义分析。句法分析通过解析单词的语法并应用预先编程的语法规则来确定单词、短语或句子的含义。语义分析使用句法输出从单词中提取含义,并在句子结构中解释它们的含义。

单词的解析可以采用两种形式之一。“依赖关系解析”着眼于单词之间的关系,例如识别名词和动词,而“成分分析”会生成解析树(或语法树):句子或单词串的句法结构的寻根和有序表示。生成的解析树是语言翻译器和语音识别功能的基础。理想情况下,这种分析使输出(文本或语音)可为 NLP 模型和人所理解。

自监督学习 (SSL) 尤其有助于支持 NLP,因为 NLP 需要大量标注数据来训练 AI 模型。由于这些标注数据集需要花费大量时间来注释(该过程涉及人工标记),因此收集足够的数据可能非常困难。自监督方法可以提高时间利用率和成本效益,因为它们取代了部分或全部需要手动标注的训练数据。
三种不同的 NLP 方法包括:

统计 NLP 是较晚发展起来的,它能自动提取、分类和标记文本和语音数据的元素,然后为这些元素的每种可能含义分配统计可能性。这依赖于机器学习,能够进行复杂的语言学细分,如词性标注。
统计 NLP 引入了将语言元素(例如单词和语法规则)映射到向量表示的基本技术,以便可以使用数学(统计)方法(包括回归或马尔可夫模型)对语言进行建模。这为早期的 NLP 开发提供了信息,例如拼写检查器和 T9 文本输入法(使用 9 个键输入文本,用于按键式电话)。

最近,深度学习模型已成为 NLP 的主导模式,通过使用大量原始、 非结构化 数据(文本和语音)来变得更加准确。深度学习可视为统计 NLP 的进一步发展,不同之处在于它使用了 神经网络 模型。模型分为几个子类别:

  • 序列到序列 (seq2seq):基于 循环神经网络 (RNN) ,主要用于机器翻译,将一个领域(例如德语)的短语转换为另一个领域的短语(例如英语)。

    • 转换器模型 :它们使用语言的 词元化 (每个词元的位置 - 单词或子词)和自我注意力(捕获依赖程度和关系)来计算不同语言部分之间的关系。 转换器模型 通过在海量文本数据库上使用 自监督学习 ,可以高效地进行训练。 转换器模型 的一个里程碑是 Google 的来自转换器的双向编码器表示 (BERT),此表示法后来成为且目前仍然是 Google 搜索引擎工作原理的基础。

      • 自回归模型 :这种类型的转换器模型经过专门训练,可以预测序列中的下一个单词,代表了生成文本能力的巨大飞跃。自回归 LLM 的示例包括 GPT、 Llama 、Claude 和开源 Mistral。

        • 基础模型 :预先构建和整理的基础模型,可以加快 NLP 工作的启动速度,并提高对其运作的信任度。例如, IBM® Granite 基础模型适用于各行各业。它们支持 NLP 任务,包括内容生成和洞察提取。此外,它们还促进了检索增强生成,这是一个通过将模型与外部知识源联系起来以提高响应质量的框架。这些模型还执行命名实体识别,包括识别和提取文本中的关键信息。

          NLP 文本预处理将原始文本转换成机器更容易理解的格式,为分析做好准备。首先进行标记化,这涉及将文本拆分为更小单位,如单词、句子或短语。这有助于将复杂的文本分解为可管理的部分。接下来,应用小写来标准化文本,通过将所有字符转换为小写,确保“Apple”和“apple”这样的词得到相同处理。停用词删除是另一个常见步骤,其中,“is”或“the”等常用词被过滤掉,因为它们不会为文本添加重要的含义。 词干提取 词形还原 将单词简化为它们的词根形式(例如,“running”变为“run”),通过对同一个单词的不同形式进行分组,可以更轻松地分析语言。此外,文本清理会删除可能使分析混乱的不需要的元素,例如标点符号、特殊字符和数字。

          经过预处理后,文本变得干净、标准化,可供机器学习模型进行有效解释。

          然后,处理后的数据用于训练机器学习模型,该模型将学习数据中的模式和关系。在训练过程中,该模型会调整其参数,以最大限度地减少错误并提高其性能。经过训练后,该模型可用于根据新的、未知的数据进行预测或生成输出。通过评估、验证和微调,NLP 建模的有效性会不断得以完善,以提高实际应用中的准确性和相关性。

          在上述各个过程中,一些不同的软件环境非常有用。例如,Natural Language Toolkit (NLTK) 是一套用 Python 编程语言编写、适用于英语的库和程序。它支持文本分类、标记化、词干提取、标注、解析和语义推理功能。TensorFlow 是一个用于机器学习和 AI 的免费开源软件库,可用于训练 NLP 应用程序的模型。如果有兴趣熟悉此类工具,相关教程和认证比比皆是。