CIPS 2016 笔记整理

《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是 深度科普 ,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。

注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。

ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:

https://github.com/changliang5811/CIPS-2016.git

CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘
CIPS 2016(11-12章)——信息检索、信息推荐与过滤
CIPS 2016(13-14章)——自动问答、机器翻译
CIPS 2016(15章)——社会媒体处理
CIPS 2016(16章)——语音技术

手写文本行识别

  • 手写文本行图像中字符难以在识别之前被准确切分,因此字符切分和识别需要同时进行,或者对文本行图像整体进行识别。
  • 基于过切分(尽可能将不同字符分开,每个片段为字符或字符的一部分)和候选切分-识别路径评价搜索的方法。
  • 在上述框架下,基于贝叶斯决策的上下文融合方法和基于半马尔科夫条件随机场的方法都取得了较高的字符切分和识别正确率。除了融合方法,字符分类器的精度、几何上下文和语言上下文的表示对文本行识别性能有决定性影响。
  • 深度卷积神经网络(CNN)把手写汉字识别的精度提升了一大步。它可作为分类器集成在文本行识别系统中,提高文本行识别性能。
  • 从文档数据库中查找与用户关心的主题或关键词匹配的文档图像或区域

  • 基于文字识别的检索

    • 依赖文字识别的精度,在识别精度较低的情况下检索性能会明显下降
  • 文字识别无关的检索

    • 大部分工作是对用户查询的关键词进行检索

    • 关键词检索方法

      • 基于图像查询的方法(Query-by-Example)

      • 基于文本查询的方法(Query-by-Keyboard)

        一般需要有字符或词的形状模型,用不同字体和书写风格的样本训练后具有较好的形变适应能力,而且用键盘输入文本查询的方式在使用上更方便。

  • 发展:把词图像和文本嵌入共同特征空间的方法,可同时用于词识别和关键词检索

最新应用走势

  • 联机手写图文混合文档分析
  • 历史文档的识别与检索
  • 智能手机和移动互联带来的拍照文档识别和网络文档图像识别

文字识别的认知机理和受认知启发的文字识别方法

  • 目前的自动检测和识别性能跟人相比有较大差距。因此,需要从人的感知和认知机理得到启发设计新的处理方法

文档识别模型的小样本学习与自适应

文档分析与识别的结构化学习与优化模型

  • 文档中的各种元素(文本、图像、表格、符号等)相互关联,需要用一个结构化模型来表示他们之间的相互关系,充分利用几何上下文关系和语言上下文关系来提高各个元素识别的准确性
  • 图文混合、印刷和手写混合的文档识别与结构理解
  • 网络文档图像识别与检索
  • 多语言文档分析与识别
  • 历史文档(古籍)的识别与检索

近几年,文字识别技术得到了快速发展。这得益于两方面的因素。一方面,互联网和移动通信、便携式成像设备的推广应用带来了很多新的文字识别应用需求。另一方面,模式识别、机器学习、计算机视觉等领域理论方法的发展给文字识别技术研发产生了很多启发和促进。

由上可知,文字识别依旧存在很多待解决的问题。文字识别技术既有大量的应用需求,又有一系列的理论和技术难题,需要投入大量的研发力量,进一步推动学术研究和应用的发展。

The last blog about CIPS(完结篇):信息处理,包括多模态信息处理(Chapter 18)、医疗健康信息处理(Chapter 19)、少数民族语言文字信息处理(Chapter 20)。

文字识别(Character Recognition),广义地称为文档分析(Document Analysis),是对文档图像中的文字进行分割、识别,将文档从图像转换为电子文本的技术。具体内容包括文档图像预处理、版面分析、字符切分、字符识别、文本行识别等。文字识别技术是中文信息处理中非常重要的一环,最近五年,随着数码相机和智能手机的普及使随时随地拍照识别成为可能,加上技术的进一步发展,文字识别迎来了一个新的应用高潮,不断产生新的应用模式和技术需求。...
参考:https://www.zhihu.com/question/20191727 1、汉字 识别 以前主要采用最近邻分类器(KNN)和修正二次判别函数(MQDF),主要是针对扫描文档OCR和手写汉字OCR。当然现在深度学习发展迅猛,卷积神经网络(CNN)已经开始大行其道,具体可以看看百度深度学习 研究 院的技术报告。 2、刚好现在在公司做OCR和STR, 现在主流的方法是CNN(基于feature...
1.1引言 传统光学字符 识别 主要面向高质量的文档图像,此类技术假设输入图像背景干净、字体简单且 文字 排布整齐,在符合要求的情况下能够达到很高的 识别 水平。 与文档 文字 识别 不同,自然场景中的 文字 识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等,传统光学字符 识别 在此类情况下无法应用。 图像理解:仅利用一般的视觉元素(如太阳、大海、山、天空等)及其相互关系,容易缺乏足够的上下文信息约束,
PDPbox是一个Python工具包,用于计算和可视化预测值分布图(partial dependence plots, PDPs)和条件重要性图(conditional importance plots, CIPs )等,以帮助解释机器学习模型的预测结果。 首先,您需要安装pdpbox包。可以使用pip命令来安装: pip install pdpbox 接下来,您可以使用以下示例代码来计算和可视化PDP和CIP: ```python from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor from pdpbox import pdp, get_dataset, info_plots # 加载波士顿房价数据集 boston_data = load_boston() # 分离数据集 X, y = get_dataset(boston_data, & #39;MEDV & #39;) # 初始化随机森林回归模型 rf_model = RandomForestRegressor(n_estimators=100, random_state=42) # 训练模型 rf_model.fit(X, y) # 计算并可视化PDP pdp_dist = pdp.pdp_isolate(model=rf_model, dataset=X, model_features=X.columns, feature= & #39;RM & #39;) fig, axes = pdp.pdp_plot(pdp_dist, & #39;RM & #39;, plot_lines=True, frac_to_plot=100) _ = axes[ & #39;pdp_ax & #39;].set_xticklabels([ & #39;3 & #39;, & #39;4 & #39;, & #39;5 & #39;, & #39;6 & #39;, & #39;7 & #39;, & #39;8 & #39;, & #39;9 & #39;]) # 计算并可视化CIP cip_dist = pdp.cip_values(model=rf_model, X=X, features=[ & #39;RM & #39;, & #39;LSTAT & #39;], y=y, num_grid_points=10) fig, axes = pdp.cip_plot(cip_dist, feature_names=[ & #39;RM & #39;, & #39;LSTAT & #39;], figsize=(12, 8)) 上述代码计算和可视化了波士顿房价数据集中房间数(RM)和低收入人群比例(LSTAT)对房价(MEDV)的PDP和CIP。您可以根据自己的数据集和模型进行调整和修改。