数据集
-
新冠开放知识图谱.流行病
新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,... -
DuEE1.0中文事件抽取数据集
DuEE1.0是百度发布的中文事件抽取数据集,包含65个事件类型的1.7万个具有事件信息的句子(2万个事件)。事件类型根据百度风云榜的热点榜单选取确定,具有较强的代表性。... -
BTC2019数据集: Billion Triple Challenge 2019 Dataset
BTC数据集是从2018/12/12到2019/01/11使用LDspider进行大规模RDF爬取的数据,数据以四元组的形式存储,第四个元素编码相关联的三元组从web文档解析的位置。数据集包含了2,155,856,033个四元组,... -
海洋鱼类百科知识图谱数据
海洋鱼类的栖息地知识图谱数据,包含鱼类的属性信息,适用于图数据库。 -
Limes:实体链接发现框架
OpenKG搜集和整理知识图谱相关的技术工具,并将组织开展技术评测。 Limes是一个基于度量空间的实体链接发现框架,结合了数学统计,前缀后缀,位置过滤来计算相似率。这个相似率用来过滤掉不符合匹配条件的实体对,以此减少比较时间复杂度,提高效率。 -
基于 REfO 的 KBQA 实现及示例
这是一个基于 Python 模块 REfO 实现的知识库问答初级系统. 该问答系统可以解析输入的自然语言问句生成 SPARQL 查询,进一步请求后台基于 TDB 知识库的 Apache Jena Fuseki 服务, 得到结果. 这是一个入门级的例子. 内含介绍此项目的 README.pdf. 方便用户快速把握这个项目的想法. 希望用户体会默认的 3... -
基于elasticsearch的KBQA实现及示例
这是一个基于ElasticSearch实现的简单的基于知识库的问答系统。该问答系统可以解析输入的自然语言问句生成ES查询,然后执行得到结果。目前实现了按照名称检索实体,实体属性,多跳检索,以及检索符合多对属性要求的实体。 -
新冠开放知识图谱.物资
新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。 -
新冠开放知识图谱.防控
根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。 其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。 潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。 -
新冠开放知识图谱.英雄
涉及到专家组、武汉当地和全国各地相关的KOL等,涉及生平事迹和基本属性等,并与新冠百科、新冠科研、新冠临床、新冠防控等中的一些概念或实体关联。 图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。 -
新冠开放知识图谱.临床
从诊疗规范(流行病学+症状+实验室指标+治疗);研究进展(测序、药物开发、疫苗);发病统计(丁香园)出发, 研究进展与科研关联,从目前已有的规范文件入手出发。 图谱以2019冠状病毒病(COVID-19)为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于图谱进行知识问答。 -
新冠开放知识图谱.概念
新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的is-... -
新冠开放知识图谱.健康
新冠健康图谱包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。 潜在应用: 流行病调查研究,基于图谱的新冠肺炎健康防护问答。 -
新冠开放知识图谱.科研
简介更新: 1.病毒分类图谱 v2.0,根据最新 ncbi 网站内容更新了病毒族系相关的科研基础数据,包括了所有病毒的 lineage 分类信息。 2.新冠基本信息图谱 v1.0, 从新冠病毒的基因蛋白,宿主等相关信息出发构图。 3.抗病毒药物图谱 v1.0,依据 drugbank... -
国内行政区划知识数据
国内省市县乡村之间的行政区划数据。由于数据庞大,请自行到网盘提取。 提取码:2oc9 -
基于cnSchema的浙江历史人物知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema,和数据预处理最终形成了基于cnSchema的浙江历史人物知识图谱。 《浙江历史名人》专题数据库所收浙江人物,除浙江籍的历史名人外,也包括了浙江旅外人士和外地长期在浙江工作并作出突出贡献者。时间跨度,上溯春秋战国,下延20世纪末收入人物3万多人。... -
基于cnSchema的浙江公共图书馆知识图谱
本数据是由“浙江省公共图书馆基本信息”和“浙江省公共图书馆地理信息”整理合并而成。二者的原始数据均是从浙江省数据开放平台获取,统一schema后,对两个数据集进行整理合并,最终形成了基于cnSchema的浙江公共图书馆知识图谱。... -
基于cnSchema的浙江定点医疗机构知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江定点医疗机构知识图谱。本数据是浙江省各医院、门诊等定点医疗机构的基本信息。 本数据包含定点医疗机构名称,定点类别,机构编码,服务人群,地址等信息。其中“医疗机构名称”,“地址”等使用了cnSchema中的定义。提供json-... -
基于cnSchema的浙江森林公园知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江森林公园知识图谱。本数据是位于浙江省内的国家级、省级等森林公园基本信息。... -
基于cnSchema的浙江宗教团体知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema、数据预处理等最终形成了基于cnSchema的浙江宗教团体知识图谱。本数据记录了浙江省各地级市中宗教团体/协会的基本信息。... -
基于cnSchema的浙江宗教场所知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema、数据预处理等最终形成了基于cnSchema的浙江宗教场所知识图谱。本数据记录了浙江省各地级市中宗教场所的基本信息。... -
基于cnSchema的浙江A级景区知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema、数据预处理等最终形成了基于cnSchema的浙江A级景区知识图谱。本数据记录了浙江省各地的A级景区基本信息。 《浙江省A级景区基本信息》包含了景区名称,等级,地址等信息。其中“景区名称”、“等级”、“地址”等使用了cnSchema中的定义。提供json-ld,ttl,RDF和xml四种下载格式。... -
基于cnSchema的浙江旅行社(企业)知识图谱
原始数据是从浙江省数据开放平台获取,通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江旅行社(企业)知识图谱。主要是旅行社(企业)的基本信息数据。... -
ACE实体关系数据集
开源图谱评测数据 -
DuIE2.0中文关系抽取数据集
DuIE2.0是业界规模最大的中文关系抽取数据集,其schema在传统简单关系类型基础上添加了多元复杂关系类型,此外其构建语料来自百度百科、百度信息流及百度贴吧文本,全面覆盖书面化表达及口语化表达语料,能充分考察真实业务场景下的关系抽取能力。 -
DuEE-fin金融领域篇章级事件抽取数据集
DuEE-fin是百度发布的金融领域篇章级事件抽取数据集,包含13个事件类型的1.17万个篇章,同时存在部分非目标篇章作为负样例。事件类型来源于常见的金融事件,数据集中的篇章来自金融领域的新闻和公告,覆盖了真实应用场景中诸多难以解决的问题。 -
2014年NLPCC实体链接数据集
NLPCC 2014 评估任务测试数据 -
OntoNotes5.0数据集
开源图谱评测数据 -
CoNLL2003数据集
开源图谱评测数据 -
2015年NLPCC实体链接数据集
该任务来自NLPCC 2015评测任务,该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库,该知识库来自各类中文百科的信息框,包括中文维基百科和百度百科。该数据集还包括每个实体页面的第一段作为该实体的摘要。 -
知识工厂实体链接数据集
基于CN-DBpedia的短文本实体链接测试数据 数据集的文本由1037条人工标注的短文本语料组成。其中大约70%来自新闻语料,包括新闻标题和内容,比如“英超-桑切斯4分钟内梅开二度阿森纳3-2五轮不败”;大约20%来自人工构建的基于歧义实体的语料,比如“红楼梦的演员有哪些”;大约10%来自问答语料中的简单问句,比如说“岳阳有哪些旅游景点”。 -
YAGO3-10知识表示数据集
开源图谱评测数据 -
WN18rr知识表示数据集
开源图谱评测数据 -
WN18知识表示数据集
开源图谱评测数据 -
FB15k-237知识表示数据集
开源图谱评测数据 -
FB15k知识表示数据集
开源图谱评测数据 -
CEC事件抽取数据集
开源图谱评测数据 中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。 -
中文百科知识图谱Zhishi.me-提供Dump
这是中文百科知识图谱zhishi.me的dump,分为turtle格式和json-ld格式两个版本 -
面向试验鉴定的命名实体识别任务
本次评测任务依托Biendata平台展开,将采取刷榜的方式,验证集发布后,允许参赛队伍每天至多向平台提交一次结果,格式与任务描述中的示例输出相同,取四个预定义类各自F1值的算数平均值,作为排名依据,排名每小时更新一次。参赛队伍可在测试集发布之前随时上传验证集的计算结果,平台管理系统会及时更新各队伍的最新排名情况,验证集榜不计入比赛最终成绩。... -
OpenKG 精选文章汇编(2020 年度)
2020 年我们总共分享了 144 篇文章,其中原创文章 69 篇,内容涵盖了知识 图谱的方方面面,包括开源开放、领域应用、技术动态、论文浅尝、会议研讨等 多个主题。截止目前,公众号总订阅数已达 3.1 万人,全年累计阅读量达 58 万 +,累计阅读人数达 41 万+。 今年的汇编我们分解为“论文浅尝”、“开源开放”和“技术前线” 三个... -
新冠开放知识图谱.百科
新冠百科(包括病毒、细菌、流行病、传染病等)。一个领域百科KG,这是基础;从各大百科出发,也会涵盖之前几次疫情涉及到的知识点。 图谱以病毒,细菌为主体,扩展了治疗,疾病相关内容,通过了这些概念的百科知识,形成新冠百科知识图谱。 潜在应用:面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。... -
《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表
开源了《大词林》中的75万的核心实体,和该核心实体对应的细粒度概念词(共1.8万概念词,300万实体-... -
OpenKG论文浅尝2019年论文汇编
OpenKG「论文浅尝」旨在通过分享近期知识图谱领域的论文笔记,内容涉及信息抽取、知识推理、知识问答、推荐系统、知识融合等多个方向。2019年共推送 90 篇「论文浅尝」,这本论文汇编是根据文章阅读量挑选出的其中20+篇笔记。 特别感谢:整理「论文浅尝」笔记的来自浙江大学、东南大学、南京大学、天津大学、复旦大学的 40 多位同学。 -
OMAHA七巧板医学术语集样例数据
开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)基于本体论构建了一套中文临床医学术语集。涉及领域包括疾病诊断、症状、检验检查、基因、基因突变等,术语集包括概念、术语、关系(子类关系和属性关系)和映射四大核心构件。目前已积累76万概念,100万术语,254万关系。... -
唐诗别苑--基于知识图谱的全唐诗语义检索与可视化平台
功能一:语义检索——“没有你找不到的唐诗” 1.查询诗人信息或作品,可输入其名字或别号 2.查询诗人交友状况 3.查询诗歌地点、风格、主题、题材、意象、教学阶段等信息,可输入相关标签或将其组合 功能二:知识图谱可视化——“原来唐诗可以这么玩” 1.动态诗人社交网络:一眼看到谁是社交小王子 2.诗人迁徙游历图:唐代最厉害的驴友是谁?等待你来挖掘... -
Synonyms:一个开源的中文近义词工具包
Synonyms是Hai Liang Wang 和胡小夕在 GitHub 开放了一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多 NLP 任务。该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。 -
清华大学开源OpenKE: 知识表示学习平台
OpenKE 是一个开源的知识表示学习平台,由 THUNLP 基于 TensorFlow 工具包开发。在 OpenKE 中,我们提供了快速和稳定的工具包,包括最流行的知识表示学习(knowledge representation learning,KRL)方法。该框架具有容易拓展和便于设计新的知识表示学习模型的特点。 该框架有如下特征: -... -
基于limes的中文知识图谱融合实战演练教程
Limes使用教程和数据集 -
国内主要中文百科知识图谱之间的链接数据集
链接的中文百科知识图谱是OpenKG正在从事的一项工作。目的是促进百科类、通用域的知识图谱的开放与互联。目前已经初步建立了国内几个主要中文开放百科类知识图谱的链接,这包括Zhishi.me(狗尾草科技、东南大学)、CN-DBPedia(复旦大学)、XLore(清华大学)、Belief-... -
KB2E: 清华大学知识图谱embedding工具包
此工具包中实现了目前效果较好的知识表示学习的方法,包括TransE, TransH, TransR and PTransE等,并且已在数据集FB15K和WN18上测试。