数据集 - 开放知识图谱

DuEE1.0中文事件抽取数据集

DuEE1.0是百度发布的中文事件抽取数据集，包含65个事件类型的1.7万个具有事件信息的句子（2万个事件）。事件类型根据百度风云榜的热点榜单选取确定，具有较强的代表性。...

图书问答知识图谱

图书知识图谱包括图书(books)、人（person）、出版社(press)三类实体，属性包括标题(title)、评分(rating)、作者(writer)、翻译者(translator)、出版信息(pub_info)、序列号(series)、标签(tags)、...

东南大学大型多模态知识图谱OpenRichpedia

OpenRichpedia是一个大型多模态知识图谱，其包含的多模态知识可以应用于自然语言处理，计算机视觉与知识图谱等诸多研究领域。我们在本资源中提供了OpenRichpedia中的图片和知识资源，供研究者下载和使用。

CED：篇章目录结构树抽取

目录作为篇章中天然的结构化信息，可以快速定位目标信息所在的片段。本项目旨在提供一系列从篇章中抽取目录结构的数据集和工具。

JSONL
ZIP

百科知识图谱具有100W_en的实体

处理了同义词，添加了唯一性标签，基于neo4j导出的csv,不要使用office打开，会乱码的，使用程序提取更好一些。链接：https://pan.baidu.com/s/1LhZ7YUKsHVhsfJIXZB9GhA?pwd=9m15 提取码：9m15

基于知识图谱的多模态类比推理数据集

ICLR2023“Multimodal Analogical Reasoning over Knowledge Graph”提出的数据集，包含一个多模态知识图谱数据集MarKG和一个多模态类比推理数据集MARS，用来评估模型的多模态类比推理能力。

ZIP

ACE实体关系数据集

开源图谱评测数据

人物百科知识图谱

该知人物识图谱以百度百科为基础数据集自顶向下构建而成，抽取分析其中的人物部分，总共包含人物实体2,480,097个，数据包含原始页面，图谱三元组(包括人物属性和人物关系)以及本体。数据可以辅助人物相关应用、问答系统等，目前第一版只考虑了利用了文本部分数据，后续会进行多模态数据的更新。

ZIP

2014年NLPCC实体链接数据集

NLPCC 2014 评估任务测试数据

HTML

2015年NLPCC实体链接数据集

该任务来自NLPCC 2015评测任务，该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库，该知识库来自各类中文百科的信息框，包括中文维基百科和百度百科。该数据集还包括每个实体页面的第一段作为该实体的摘要。

知识工厂实体链接数据集

基于CN-DBpedia的短文本实体链接测试数据数据集的文本由1037条人工标注的短文本语料组成。其中大约70%来自新闻语料，包括新闻标题和内容，比如“英超-桑切斯4分钟内梅开二度阿森纳3-2五轮不败”；大约20%来自人工构建的基于歧义实体的语料，比如“红楼梦的演员有哪些”；大约10%来自问答语料中的简单问句，比如说“岳阳有哪些旅游景点”。

CEC事件抽取数据集

开源图谱评测数据中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

浙江大学—大规模细粒度中文概念图谱OpenConcepts

OpenConcepts 介绍 OpenConcepts (http://openconcepts.openkg.cn/)...

红楼梦人物关系

There is no description for this dataset

ZIP

明代历史知识图谱

项目设计并实现了明代历史知识图谱，涵盖了明代历史的重要人物、历史事件、历史地名、著作等若干实体，并实现了知识图谱的可视化展示。

JSON

希腊神话神祗

我们关注百度百科词条——希腊神话（西方神话体系之一），为他们在主要神祗、次要神祗、著名的人类和半神三个分目下罗列的人物进行人物关系知识图谱的构建。除了人物间的关系http://openkg.cn/dataset/resources/greekgod外，我们希望找到人物间通过事件的关联。因此，我们查询了一本书《古希腊神话》，作为补充的故事节点。

古诗词知识图谱

➢ 本项目完成了从无到有，以垂直网站为数据来源，构建起以古诗词为中心的古诗词知识图谱，实体关系规模28万。 ➢ 本项目以业务驱动，构建古诗词知识图谱，知识设计基于所采集的结构化数据生成 ➢ 本项目实现了知识抽取，可以抽取常用词，并联系相对于的诗词 ➢ 本项目可以快速部署，数据可以公开，本项目的数据为古诗爱好者及古诗学习者提供了极大地遍历，...

application/x-7z-compressed

Zhishi.me

Zhishi.me 通过从开放的百科数据中抽取结构化数据，首次尝试构建中文通用知识图谱。目前，已融合了三大中文百科，百度百科，互动百科以及维基百科中的数据。我们提供了一个 SPARQL 终端供用户查询，目前查询返回的结果通过HTML的形式给出。更多有关Zhishi.me的信息可以访问ISWC2011的论文。

RDF
ttl

多模态实体链接数据集 MELBench

1. 摘要多模态实体链接是多模态数据处理的基础任务之一，旨在将多模态数据中的实体链接到知识图谱中，在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而，目前开源和能重现的多模态实体链接数据集还很少，一定程度上制约着相关工作的研究。东南大学团队发布的多模态实体链接数据集MELBench包含3个任务：Weibo-...

JSON

Academic

关于论文信息与内容的知识图谱

找到43个数据集