国内外KG数据来源(续)---知识图谱
27. 快雨-证券数据api .
- 包含A股历史、实时行情,行业、概念、财务等基本面数据,以及股东增减持、研报等数据。
28. 人物类RDF知识
- 采集自百科网站的人物类知识,共65万个RDF三元组
29. 通用知识图谱(ownthink)
- ownthink致力于最大的中文开放知识图谱,目前已经对两千五百多万实体进行了融合,拥有亿级别的实体属性关系,知识还在不断更新中
30. 疾病术语集
- 疾病术语集包了疾病实体及疾病相关同义词,同时建立了疾病实体与UMLS概念的映射,术语集的数据来源于国内权威的临床医学术语网站。
- 微软推出Concept Graph以更好理解自然语言。背景知识是人类与机器在语言理解上的主要差别之一。Probase是一个知识数据库,微软在该产品上开发了相当一段时间。该数据库是开放工具Microsoft Concept Graph(微软概念图)的基础。Probase包含了540万个概念,超过了如提供12万个概念的Cyc等其他知识数据库。
32. Clinga
- 虽然地理领域早已是链接数据(亦称关联数据)的一个重要组成,中文地理链接数据的稀缺阻碍了中文知识和跨语言知识的集成和共享。在本项目中,我们提供了一个名为Clinga的中文链接数据集,其数据源自最大的中文维基百科。我们手工构建了一个新的地理本体对各种自然地理和人文地理实体进行分类,并自动与现有知识库进行链接。所得到的Clinga数据集现包含50多万中文地理实体,并已公开访问。
33. 北京大学中文百科知识图谱-PKU-PIE 知识库 .
- PKU-PIE知识库是从维基百科, DBpedia, 百度百科等多个来源自动收集知识形成的知识库,有自己的类别体系和谓词体系,并且和DBpedia等常见的数据库进行关联.
34. 突发事件知识图谱
35. 精细化工知识图谱
36. 常识因果关系网络(英文)
37. 城市内涝语义数据
- 提供结构化的城市内涝数据,外链至气象、交通、微博等数据。 目前提供十个城市的数据。
38. KG4OpenKG
- 从 http:// OpenKG.CN 获取的KG4OpenKG数据集。
40. OpenStreetMap和Wikidata的实体链接数据集(中国区域)
- LinkedGeoData(链接地理数据)是为数据/语义网添加空间维度的努力。链接地理数据使用OpenStreetMap(开放街道地图)项目收集的信息,并根据链接数据原则将其作为RDF知识库提供。它将这些数据与链接开放数据计划中的其他知识库相互联系。Wikidata(维基数据)是人人可编辑的知识库(knowledge base),收录的是结构化数据。开放街道地图包含三种基本的地理实体:节点(node)、路径(way)、关系(relation)。维基数据的一个核心概念是实体(entity),可以指一个现实中的对象或一个抽象概念。将维基数据中的实体与开放街道地图中的地理实体相链接,可以为地理空间数据增加可理解的背景知识。 该数据集中包含中国区域OpenStreetMap和Wikidata相互链接的地理实体(分成3类:node、way、relation),记录了它们的地理信息和属性信息
41. 天气语义数据
- 提供语义化的气象数据,外链到相关疾病、健康等数据。
42. 音乐知识图谱
- 音乐知识图谱,包括歌曲名、歌手、原唱、语种、热门歌手、热门歌曲等属性,可用于音乐问答服务
43. 索答菜谱本体信息
- 索答50w菜谱本体信息,每个菜谱包含菜名,食材,味道,烹饪时间等属性。
44. LiuYifei
- 刘亦菲人物关系。
45. 机器之心开放人工智能词库
46. Music
- 音乐知识图谱
47. 三國志圖譜
- 《三國志》的人物知識圖譜,主要包含人物、時間、地點和關鍵事件的關係圖
48. 华人家谱关联数据集
- 家谱,又称谱牒、族谱、宗谱、家乘、世谱等,是同宗共祖的血亲团体记载本族世系和相关事迹、反映本家族繁衍发展过程的历史图籍。它与正史、方志、构成了中华民族历史大厦的三大支柱,在中国乃至世界文明的文明发展历史上,堪称弥足珍贵的文化遗产。
- 本数据集包括海图书馆馆藏的24万余种手稿及档案的元数据。其数量丰富、类型多样:包括私人信函电报12万余通,珍贵的创作手稿1万7千余种,谕旨奏折公牍条约1万4千余种,合同章程4千余种,照片及音像资料1万8千余种,等等。涉及名人近5万、地点2千余个,时间跨度为19世纪初至20世纪末近200年。数据经过语义化的清洗、加工、转换进行知识组织之后,不再是简单的关于文献的描述性元数据,而存在着丰富的人与人、人与文献、文献与文献间的关联关系,是研究近现代历史、人文、经济、社会等问题的宝贵资料。
50. 电商情感词典ECSD
- == 电商情感词典 == 本项目介绍苏州大学人类语言研究所构建的电商情感词典,包括通用的情感词条和电商领域特有的情感词条,共计3138条
- 实体/属性-情感词对定义:实体/属性—情感词 例如:“长城 宏伟”、“性价比 高”、“价格 高” 详细信息请阅读 readme.txt
- THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:
- 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。
- 词库经过多轮人工筛选,保证词库收录的准确性。
- 开放更新,将不断更新现有词表,并推出更多类别词表。
53. 影视双语知识图谱
- 这是一个由清华大学计算机系知识工程实验室构建的完全结构化的双语影视本体, 共包括23个概念,91个属性,70余万个实体以及1000多万个三元组,其数据源包括LinkedIMDB,百度百科,豆瓣等。
54. XLORE双语百科知识图谱
- XLore从异构的跨语言在线百科中抽取结构化信息,并将其分享在网络上。据我们所知,XLore是第一个大规模的中英文知识平衡的知识图谱。目前,XLore包含663,740个概念,56,449个属性和10,856,042个实例。这给构建任何双语言知识平衡的大规模知识图谱提供了一种新的方式。
55. 清华大学-科技知识图谱
- SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。其中,科技概念及其关系是从ACM计算分类系统中提取出来的,并辅以每个概念的定义(大多数来自维基百科)。我们进一步使用AMiner将每个概念对应的顶尖专家和最相关的论文联系起来。每个专家包含职位、隶属机构、研究兴趣等属性,以及到AMiner系统的链接。每篇论文则包含标题,作者,摘要,出版地点和年份等元信息。SciKG可用于更好地了解计算机科学领域的动态和演化,并帮助用户进行计算机领域中专家和论文的搜索和推荐.
56. 乳腺癌知识图谱
- 乳腺癌知识图谱集成了乳腺癌相关的知识/数据资源,包括乳腺癌临床试验数据,乳腺癌医学指南,乳腺癌电子病历,乳腺癌临床试验数据语义标注,乳腺癌医学文献等,数据规模超过两千两百万三元组。