《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是
深度科普
,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。
注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。
ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:
-
文档中的各种元素(文本、图像、表格、符号等)相互关联,需要用一个结构化模型来表示他们之间的相互关系,充分利用几何上下文关系和语言上下文关系来提高各个元素识别的准确性
-
图文混合、印刷和手写混合的文档识别与结构理解
-
网络文档图像识别与检索
-
多语言文档分析与识别
-
历史文档(古籍)的识别与检索
近几年,文字识别技术得到了快速发展。这得益于两方面的因素。一方面,互联网和移动通信、便携式成像设备的推广应用带来了很多新的文字识别应用需求。另一方面,模式识别、机器学习、计算机视觉等领域理论方法的发展给文字识别技术研发产生了很多启发和促进。
由上可知,文字识别依旧存在很多待解决的问题。文字识别技术既有大量的应用需求,又有一系列的理论和技术难题,需要投入大量的研发力量,进一步推动学术研究和应用的发展。
The last blog about CIPS(完结篇):信息处理,包括多模态信息处理(Chapter 18)、医疗健康信息处理(Chapter 19)、少数民族语言文字信息处理(Chapter 20)。
文字识别(Character Recognition),广义地称为文档分析(Document Analysis),是对文档图像中的文字进行分割、识别,将文档从图像转换为电子文本的技术。具体内容包括文档图像预处理、版面分析、字符切分、字符识别、文本行识别等。文字识别技术是中文信息处理中非常重要的一环,最近五年,随着数码相机和智能手机的普及使随时随地拍照识别成为可能,加上技术的进一步发展,文字识别迎来了一个新的应用高潮,不断产生新的应用模式和技术需求。...
参考:https://www.zhihu.com/question/20191727
1、汉字
识别
以前主要采用最近邻分类器(KNN)和修正二次判别函数(MQDF),主要是针对扫描文档OCR和手写汉字OCR。当然现在深度学习发展迅猛,卷积神经网络(CNN)已经开始大行其道,具体可以看看百度深度学习
研究
院的技术报告。
2、刚好现在在公司做OCR和STR, 现在主流的方法是CNN(基于feature...
1.1引言
传统光学字符
识别
主要面向高质量的文档图像,此类技术假设输入图像背景干净、字体简单且
文字
排布整齐,在符合要求的情况下能够达到很高的
识别
水平。
与文档
文字
识别
不同,自然场景中的
文字
识别
-----图像背景复杂、分辨率低下、字体多样、分布随意等,传统光学字符
识别
在此类情况下无法应用。
图像理解:仅利用一般的视觉元素(如太阳、大海、山、天空等)及其相互关系,容易缺乏足够的上下文信息约束,
PDPbox是一个Python工具包,用于计算和可视化预测值分布图(partial dependence plots, PDPs)和条件重要性图(conditional importance plots,
CIPs
)等,以帮助解释机器学习模型的预测结果。
首先,您需要安装pdpbox包。可以使用pip命令来安装:
pip install pdpbox
接下来,您可以使用以下示例代码来计算和可视化PDP和CIP:
```python
from sklearn.datasets import load_boston
from sklearn.ensemble import RandomForestRegressor
from pdpbox import pdp, get_dataset, info_plots
# 加载波士顿房价数据集
boston_data = load_boston()
# 分离数据集
X, y = get_dataset(boston_data,
&
#39;MEDV
&
#39;)
# 初始化随机森林回归模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
# 训练模型
rf_model.fit(X, y)
# 计算并可视化PDP
pdp_dist = pdp.pdp_isolate(model=rf_model, dataset=X, model_features=X.columns, feature=
&
#39;RM
&
#39;)
fig, axes = pdp.pdp_plot(pdp_dist,
&
#39;RM
&
#39;, plot_lines=True, frac_to_plot=100)
_ = axes[
&
#39;pdp_ax
&
#39;].set_xticklabels([
&
#39;3
&
#39;,
&
#39;4
&
#39;,
&
#39;5
&
#39;,
&
#39;6
&
#39;,
&
#39;7
&
#39;,
&
#39;8
&
#39;,
&
#39;9
&
#39;])
# 计算并可视化CIP
cip_dist = pdp.cip_values(model=rf_model, X=X, features=[
&
#39;RM
&
#39;,
&
#39;LSTAT
&
#39;], y=y, num_grid_points=10)
fig, axes = pdp.cip_plot(cip_dist, feature_names=[
&
#39;RM
&
#39;,
&
#39;LSTAT
&
#39;], figsize=(12, 8))
上述代码计算和可视化了波士顿房价数据集中房间数(RM)和低收入人群比例(LSTAT)对房价(MEDV)的PDP和CIP。您可以根据自己的数据集和模型进行调整和修改。