【CIPS 2016】(17章)文字识别(研究进展、现状&趋势)_国外在文字 ...

CIPS 2016 笔记整理

《中文信息处理发展报告（2016）》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理，官方定位是 深度科普 ，旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向，向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告（2016）》做的笔记知识整理，方便日后查看。

注意：本笔记不涉及任何代码以及原理分析研究探讨，主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解，方便以后更加深入的研究。

ps：我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中，有需要的可以自行查看：

https://github.com/changliang5811/CIPS-2016.git

CIPS 2016(1-3章)——词法、句法、语义、语篇分析
 CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
 CIPS 2016(6-7章)——知识图谱、文本分类与聚类
 CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘
 CIPS 2016(11-12章)——信息检索、信息推荐与过滤
 CIPS 2016(13-14章)——自动问答、机器翻译
 CIPS 2016(15章)——社会媒体处理
 CIPS 2016(16章)——语音技术

CIPS 2016 笔记整理
前言
Chapter 17 文字识别
文字识别（Character Recognition），广义地称为文档分析（Document Analysis），是对文档图像中的文字进行分割、识别，将文档从图像转换为电子文本的技术。具体内容包括文档图像预处理、版面分析、字符切分、字符识别、文本行识别等。文字识别技术是中文信息处理中非常重要的一环，因为大量的文档以纸张（如书籍、报纸、档案、票据）形式存在，而年代较早的纸张文档都没有对应的电子文件，只有通过文字识别转换成电子文本后才能对其内容进行语义分析。

文字识别应用在上世纪 90 年代中期达到一个高潮。当时模式识别方法和技术逐渐成熟，个人计算机和扫描仪迅速普及，为文字识别技术推广应用提供了良好条件。最近五年，随着数码相机和智能手机的普及使随时随地拍照识别成为可能，加上技术的进一步发展，文字识别迎来了一个新的应用高潮，不断产生新的应用模式和技术需求。

Chapter 17 文字识别

（研究进展、现状&趋势）

什么是文字识别？

文字识别（Character Recognition），广义地称为文档分析（Document Analysis），是对文档图像中的文字进行分割、识别，将文档从图像转换为电子文本的技术。

具体内容包括文档图像预处理、版面分析、字符切分、字符识别、文本行识别（核心问题，难点）等。

文本行是文档图像的基本和相对容易分割的单元，因此 文本行识别是最核心、也最难的问题 ，因为字符切分和字符识别不能分开，而且同时要考虑上下文信息（语言模型和几何上下文）

文字识别的方式按照文档的媒体形式分为两大类
- 脱机（（offline））文字识别：对已经存在于纸张或物体表面（如建筑物标牌、交通标志）的文字进行提取和识别，处理对象是通过扫描或拍照得到的文档图像。根据文字的书体又分为印刷体文字识别和手写体文字识别
- 联机（online）文字识别：对书写过程中采集到的笔划轨迹（如触屏书写、手写板书写、数码笔书写）进行文字提取和识别
关键科学问题
- 难点1:字符切分和识别的复杂性。文本行图像中由于字符间粘连、有些字符多部首、多语种混合，加上手写体的字符变形、大小和间隔不均匀等因素，字符在被识别之前很难准确分开
- 难点2:文档版面分析的复杂性。图像背景复杂，文本段落排版的多样性，文本行方向多样性（水平、垂直、倾斜，甚至有弯曲），图文混合（包括文本、图形、表格、公式、特殊符号等）。
流程1:文档图像预处理
- 研究内容：比如通过图像增强、复原等手段来改善图像的对比度和校正变形
流程2:版面分析
- 研究内容：自然场景图像中文本检测与定位；准确分割文本段落和文本行，区别和分割文本与图形、公式、表格、符号等，从而方便后续的文本行识别和公式、符号识别
流程3:文本行识别（核心）
- 对文本行图像进行字符切分和识别，得到对应的电子文本（字符串）。
- 研究内容：字符识别器设计（包括特征提取、分类器设计和学习），字符过切分，几何上下文建模，语言上下文建模，上下文融合模型，文本行序列表示和整体识别模型等
流程4:后处理和应用
- 后处理的目的：目的：一是根据文档中不同元素（文本、图形、符号）的几何关系和语义关系对识别结果进行消歧和纠错，二是结合识别结果和几何关系对文档进行重构得到结构化电子文档（如 PDF）
- 应用：除了语义分析和信息提取，文档检索是一个比较普遍可行的应用，因为检索不需要文字识别精度很高
主要方法&现状

 文档图像预处理和版面分析
- 存在问题1：背景噪声
  - 历史文档因纸张陈旧、污损等原因，即使是扫描的图像也呈现严重的背景噪声。因此如何将文本与背景分开成为一个重要的研究问题。
  - 解决办法：基于局部对比度、梯度和边缘信息的自适应二值化方法；基于图模型（如马尔科夫随机场、条件随机场）结合像素分类和空间上下文的方法
- 存在问题2:图像校正
  - 拍照文档的几何校正和光照矫正（光照不均、几何变形）
  - 采用立体视觉模型和几何分析模型
- 版面分析
  - 版面分析将文档图像分割为文本段落、图形、表格等区域
  - 基于前景的方法
    - 将像素或连通部件进行逐级聚合，得到分本行和段落，并且对连通部件或区域进行分类判断是文本或图形
    - 文档谱（Docstrum）方法、基于块邻接（Block Adjacency Graph, BAG）的方法，基于最小张成树（Minimal Spanning Tree, MST）的聚类的方法、基于 Hough 变换的方法、基于纹理分割的方法等
  - 基于背景的方法
    - 对文档图像进行自上而下的划分，如通过投影找到栏、段落、文本行之间的空白
    - 递归水平-垂直切割（Recursive X-Y Cut）、Voronoi Diagram方法、背景矩形（White Space）分析等
自然场景文本检测与识别
- 基于纹理（区域分类）
  - 对图像进行多尺度滑动窗分析，判断每个窗口的纹理是否为文本，在此基础上对图像进行分割
- 基于连通部件
  - 先通过图像区域分割或边缘分析提取连通部件，然后通过几何分析或分类器判断每个连通部件为文本或非文本，最后将文本连通部件聚合为文本行
  - 主流方法：用最大稳定极值区域（MSER）方法提取候选连通部件，对连通部件进行过滤、聚合得到文本行
文本识别
- 在文本检测定位并得到二值图像的基础上用集成字符切分、分类器和上下文的文本行识别传统方法进行识别
- 把文本检测和识别同时进行，即用字符识别器进行文本检测，称为 End-to-End 方法
- 在文本定位基础上，不用二值化直接对彩色图像进行字符切分和识别（结合上下文）的方法也取得了优良的性能，尤其是采用深度神经网络的方法

手写文本行识别

手写文本行图像中字符难以在识别之前被准确切分，因此字符切分和识别需要同时进行，或者对文本行图像整体进行识别。
基于过切分（尽可能将不同字符分开，每个片段为字符或字符的一部分）和候选切分-识别路径评价搜索的方法。
在上述框架下，基于贝叶斯决策的上下文融合方法和基于半马尔科夫条件随机场的方法都取得了较高的字符切分和识别正确率。除了融合方法，字符分类器的精度、几何上下文和语言上下文的表示对文本行识别性能有决定性影响。
深度卷积神经网络（CNN）把手写汉字识别的精度提升了一大步。它可作为分类器集成在文本行识别系统中，提高文本行识别性能。

从文档数据库中查找与用户关心的主题或关键词匹配的文档图像或区域
基于文字识别的检索
- 依赖文字识别的精度，在识别精度较低的情况下检索性能会明显下降
文字识别无关的检索
- 大部分工作是对用户查询的关键词进行检索
- 关键词检索方法
  - 基于图像查询的方法（Query-by-Example）
  - 基于文本查询的方法（Query-by-Keyboard）
    
    一般需要有字符或词的形状模型，用不同字体和书写风格的样本训练后具有较好的形变适应能力，而且用键盘输入文本查询的方式在使用上更方便。
发展：把词图像和文本嵌入共同特征空间的方法，可同时用于词识别和关键词检索

文字识别的认知机理和受认知启发的文字识别方法

目前的自动检测和识别性能跟人相比有较大差距。因此，需要从人的感知和认知机理得到启发设计新的处理方法

文档识别模型的小样本学习与自适应

文档分析与识别的结构化学习与优化模型

文档中的各种元素（文本、图像、表格、符号等）相互关联，需要用一个结构化模型来表示他们之间的相互关系，充分利用几何上下文关系和语言上下文关系来提高各个元素识别的准确性

图文混合、印刷和手写混合的文档识别与结构理解
网络文档图像识别与检索
多语言文档分析与识别
历史文档（古籍）的识别与检索

近几年，文字识别技术得到了快速发展。这得益于两方面的因素。一方面，互联网和移动通信、便携式成像设备的推广应用带来了很多新的文字识别应用需求。另一方面，模式识别、机器学习、计算机视觉等领域理论方法的发展给文字识别技术研发产生了很多启发和促进。

由上可知，文字识别依旧存在很多待解决的问题。文字识别技术既有大量的应用需求，又有一系列的理论和技术难题，需要投入大量的研发力量，进一步推动学术研究和应用的发展。

The last blog about CIPS（完结篇）：信息处理，包括多模态信息处理（Chapter 18）、医疗健康信息处理（Chapter 19）、少数民族语言文字信息处理（Chapter 20）。

文字识别（Character Recognition），广义地称为文档分析（Document Analysis），是对文档图像中的文字进行分割、识别，将文档从图像转换为电子文本的技术。具体内容包括文档图像预处理、版面分析、字符切分、字符识别、文本行识别等。文字识别技术是中文信息处理中非常重要的一环，最近五年，随着数码相机和智能手机的普及使随时随地拍照识别成为可能，加上技术的进一步发展，文字识别迎来了一个新的应用高潮，不断产生新的应用模式和技术需求。...

参考：https://www.zhihu.com/question/20191727 1、汉字识别以前主要采用最近邻分类器（KNN）和修正二次判别函数(MQDF)，主要是针对扫描文档OCR和手写汉字OCR。当然现在深度学习发展迅猛，卷积神经网络（CNN）已经开始大行其道，具体可以看看百度深度学习研究院的技术报告。 2、刚好现在在公司做OCR和STR, 现在主流的方法是CNN（基于feature...

1.1引言传统光学字符识别主要面向高质量的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。与文档文字识别不同，自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等，传统光学字符识别在此类情况下无法应用。图像理解：仅利用一般的视觉元素（如太阳、大海、山、天空等）及其相互关系，容易缺乏足够的上下文信息约束，

PDPbox是一个Python工具包，用于计算和可视化预测值分布图（partial dependence plots, PDPs）和条件重要性图（conditional importance plots, CIPs ）等，以帮助解释机器学习模型的预测结果。首先，您需要安装pdpbox包。可以使用pip命令来安装： pip install pdpbox 接下来，您可以使用以下示例代码来计算和可视化PDP和CIP： ```python from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor from pdpbox import pdp, get_dataset, info_plots # 加载波士顿房价数据集 boston_data = load_boston() # 分离数据集 X, y = get_dataset(boston_data, & #39;MEDV & #39;) # 初始化随机森林回归模型 rf_model = RandomForestRegressor(n_estimators=100, random_state=42) # 训练模型 rf_model.fit(X, y) # 计算并可视化PDP pdp_dist = pdp.pdp_isolate(model=rf_model, dataset=X, model_features=X.columns, feature= & #39;RM & #39;) fig, axes = pdp.pdp_plot(pdp_dist, & #39;RM & #39;, plot_lines=True, frac_to_plot=100) _ = axes[ & #39;pdp_ax & #39;].set_xticklabels([ & #39;3 & #39;, & #39;4 & #39;, & #39;5 & #39;, & #39;6 & #39;, & #39;7 & #39;, & #39;8 & #39;, & #39;9 & #39;]) # 计算并可视化CIP cip_dist = pdp.cip_values(model=rf_model, X=X, features=[ & #39;RM & #39;, & #39;LSTAT & #39;], y=y, num_grid_points=10) fig, axes = pdp.cip_plot(cip_dist, feature_names=[ & #39;RM & #39;, & #39;LSTAT & #39;], figsize=(12, 8)) 上述代码计算和可视化了波士顿房价数据集中房间数（RM）和低收入人群比例（LSTAT）对房价（MEDV）的PDP和CIP。您可以根据自己的数据集和模型进行调整和修改。