OMAHA专栏

干货分享 | 知识图谱与机器学习

在进入21世纪之后,随着计算机技术的发展和硬件的快速迭代,人类社会相继进入互联网时代、大数据时代和人工智能时代。特别是进入21世纪的第二个10年之后,随着机器学习的再次兴起,科技巨头纷纷把人工智能作为战略支点。据德勤咨询推测,未来2025年世界人工智能市场规模将超过6万亿美元,2017年-2025年复合增长率达30%。与此同时,中国政府也出台多项政策努力推动人工智能行业的发展,将人工智能提升到战略高度,努力抢占人工智能的高地。

纵观人工智能的发展历史,可以发现人工智能在诞生之初就分为多个分支,其中最有影响力的两个分支是“ 符号主义(symbolicism) ”和“ 连接主义(connectionism) ”。符号主义认为人脑本质就是一个符号推理的系统,如何将人已知知识总结和表示成机器可理解的形式并且进行推理与计算,一直是符号主义研究的重点。符号主义在早期一直是人工智能的主流学派,包括早期的专家系统和现在的知识图谱都可以算是符号主义的典型代表。

连接主义则认为智能是人脑神经元之间的信号传导的结果,模拟人脑结构来构建模型成为了主要的方法,早期的“感知机”和现在的机器学习就是其中最典型的代表。上世纪80年代之后,受制于理论和技术的局限,连接主义进入低谷,但是近年来,机器学习的再次兴起,让连接主义再次成为了人工智能领域的主流。

知识图谱和机器学习分别作为符号主义和连接主义在当下最前沿的两个热点,吸引了人们大量的关注与研究,其中机器学习尤为火热。在知网上分别以“知识图谱”和“机器学习”作为关键词搜索,可以发现2019年发表的机器学习相关的论文有28304篇,而同期知识图谱相关的论文只有2624篇。 为什么现在机器学习的热度会远远大于知识图谱呢?可能原因主要有以下两个方面:

一是现阶段的知识图谱构建本身与自然语言处理关联性非常强,而用机器学习来解决自然语言处理问题也是现阶段非常重要的方式,所以用机器学习的方式来构建知识图谱也成为了主流。

二是机器学习算法模型和其所需要的硬件设备在近些年逐渐发展成熟,同时AlphaGo的明星效应使得机器学习迎来了井喷式发展期。这是否意味着机器学习即将统一人工智能界呢?答案是否定的。


1.  机器学习是辅助知识图谱构建的工具之一,但不是全部。


从知识图谱的发展历史来看,知识图谱最早可以追溯到语义网络(Semantic Network),语义网络是早期符号主义学者提出的知识表示方式中的一种,而后经历了与本体论、万维网等理论的融合与延伸,由谷歌在2012年提出来,而那时机器学习还没有兴起,谷歌的知识图谱几乎都来源于开源社区中的数据。同时谷歌也建立了Schema.org来定义清楚语义模型,让用户用谷歌的Schema在网站中嵌入语义数据,从而完善自己的网站在搜索引擎中的搜索结果,而这些数据也很容易被谷歌搜集和整理而形成图谱。

从这里可以看出,知识图谱的构建包括Schema构建、知识抽取等过程,而机器学习只是其中用来做知识抽取的一种方式。但即便是用机器学习解决自然语言处理问题来辅助知识抽取,也不可能单纯地指望依靠机器的一套算法模型来解决全部。想要设计一套模型,给他喂进去大量语料然后吐出来知识图谱,这一定是不可能的。因为知识抽取是直面数据的工作,一些脏活累活无法避免,如同《三体》作者刘慈欣所说“人工智能的前面有多少智能后面就有多少人工”。

在知识图谱的构建过程中,从业者更应该思考和设计更好的知识表示的Schema模型结构,同时充分利用好机器与人的协作,这样才能更好更快地构建知识图谱。


2.  机器学习和知识图谱是人工智能的两个核心要素,缺一不可。


机器学习特别是神经网络学习的算法与模型让机器的感知能力上了一个新的台阶,同时由于快速更新的硬件使得机器有了十分强大的计算能力。机器学习带来的强大的感知和计算能力使得机器拥有了一个聪明的大脑,某些情况下聪明程度已经超出了人们的想象,比如在下围棋、肺部影像学诊断等领域。

但是随着机器学习研究的深入,越来越多人发现机器学习的局限,例如如何提高学习模型的鲁棒性和可解释性等一直是热点问题。机器学习赋予了人工智能系统一个聪明的大脑,但是如同学生读书时一样,有些特别聪明的学生在没有认真系统地听老师讲课时,他们会在一些非常简单的题上犯错,而有时他们即使计算出来了正确答案,但是其他同学往往无法理解他们的解题思路。

想要让人工智能成为真正的学霸,就必须还得有一个认真听讲的大脑,认真听讲让这个学生可以吸收大量老师归纳总结出来的知识,这些知识可以帮助大脑进行推理,从而让解题过程能够提高效率、逻辑清晰、有理有据。想要实现更高级别的人工智能,就必须既要给机器赋予一个聪明的大脑,让他拥有超乎寻常的学习能力,也要不断给他灌输知识,让他更加博学,所以机器学习和知识图谱两者缺一不可。近年来越来越多的人工智能学者也再次重新强调符号主义的重要性,提醒人们不要被机器学习冲昏了头脑。

机器学习和知识图谱都是实现更高层次的人工智能路上的重要的环节,二者不可能互相替代。 知识图谱的构建也需要从Schema到知识抽取全盘进行规划,机器学习作为一种方法可以加快知识抽取的效率。我们作为知识图谱的构建者们要有更加清醒的头脑,认清二者的关系,这样才能构建出真正可以有用和易用的知识图谱。


OMAHA汇知医学知识图谱发展历程:

2019年8月医学知识图谱Schema模型发布;

2019年9月 “药品适应证”知识图谱发布;

2019年12月 “临床路径治疗相关检查”知识图谱发布;

2020年,即将发布“临床路径”、“疾病-科室”、“疾病-症状”、“疾病-检验检查”、“疾病-治疗(药品、手术操作)”知识图谱。


您可以登陆HiTA服务平台(hita.omaha.org.cn)了解更多。


联系我们

HiTA服务:hita@omaha.org.cn

数字医学知识中心负责人徐美兰:meilan.xu@omaha.org.cn