数据集 - 开放知识图谱

浙江省文化站基础信息

来自于浙江省数据开放平台，并利用ChatGPT对文化站的交通消息进行了格式化与抽取。

CSV

基于cnScheme的外国文学研究领域知识图谱

基于开放域数据CNKI的12833 篇研究文献作为语料来源，将文献中的关键词作为主题关键词，作者作为研究人员。通过爬虫爬取结构化数据作为知识图谱基本数据，结合爬取一些自然语言数据与半结构化数据，并进行语义抽取构建了外国文学研究领域的核心数据在上述基础上，我们进行了实体对齐与部分的实体消歧，比如译名的对齐：列夫·托尔斯泰和托尔斯泰...

JSON

2022卡塔尔世界杯知识图谱

恭喜阿根廷夺冠、祝贺梅老板捧杯！

OWL

author_article_school

从知网下载的4000条左右的论文数据集，总共三个实体作者(author_id,name) 论文(article_id,summary,urls,year,article_name,cite,down) 就读高校(school_id,school_name) 关系：write_to,graduate_to 可以直接导入Neo4j使用

ZIP

基于cnSchema的浙江历史人物知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema，和数据预处理最终形成了基于cnSchema的浙江历史人物知识图谱。《浙江历史名人》专题数据库所收浙江人物，除浙江籍的历史名人外，也包括了浙江旅外人士和外地长期在浙江工作并作出突出贡献者。时间跨度，上溯春秋战国，下延20世纪末收入人物3万多人。...

基于cnSchema的浙江公共图书馆知识图谱

本数据是由“浙江省公共图书馆基本信息”和“浙江省公共图书馆地理信息”整理合并而成。二者的原始数据均是从浙江省数据开放平台获取，统一schema后，对两个数据集进行整理合并，最终形成了基于cnSchema的浙江公共图书馆知识图谱。...

基于cnSchema的浙江定点医疗机构知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江定点医疗机构知识图谱。本数据是浙江省各医院、门诊等定点医疗机构的基本信息。本数据包含定点医疗机构名称,定点类别,机构编码,服务人群,地址等信息。其中“医疗机构名称”，“地址”等使用了cnSchema中的定义。提供json-...

基于cnSchema的浙江森林公园知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江森林公园知识图谱。本数据是位于浙江省内的国家级、省级等森林公园基本信息。...

基于cnSchema的浙江宗教团体知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema、数据预处理等最终形成了基于cnSchema的浙江宗教团体知识图谱。本数据记录了浙江省各地级市中宗教团体/协会的基本信息。...

json-ld

基于cnSchema的浙江宗教场所知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema、数据预处理等最终形成了基于cnSchema的浙江宗教场所知识图谱。本数据记录了浙江省各地级市中宗教场所的基本信息。...

json-ld

基于cnSchema的浙江A级景区知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema、数据预处理等最终形成了基于cnSchema的浙江A级景区知识图谱。本数据记录了浙江省各地的A级景区基本信息。《浙江省A级景区基本信息》包含了景区名称，等级，地址等信息。其中“景区名称”、“等级”、“地址”等使用了cnSchema中的定义。提供json-ld，ttl，RDF和xml四种下载格式。...

基于cnSchema的浙江旅行社(企业)知识图谱

原始数据是从浙江省数据开放平台获取，通过构建schema和数据预处理等操作最终形成了基于cnSchema的浙江旅行社(企业)知识图谱。主要是旅行社(企业)的基本信息数据。...

医疗清单发票OCR要素提取CMedOCR

本数据集来源于CHIP2022医疗因果实体关系抽取学术评测任务：http://cips-chip.org.cn/2022/eval4 , 包括1,000条训练数据，700条测试数据。本数据集由北京环球医疗救援提供。

CVS

中文医疗段落检索数据集KUAKE-IR

受疫情催化影响，人们通过互联网获取医疗信息的诉求相比往年更加强烈，搜索质量的高低将直接影响用户获取信息的有效性。因此在AI时代，如何通过构建智能搜索能力提升线上用户的满意度成为了众多医疗AI厂商的重要研究课题。本数据集由阿里巴巴搜索事业部和阿里夸克平台联合发布，目标是旨在推动医疗搜索领域的技术发展。...

CSV

医疗因果实体关系抽取数据集CMedCausal

本数据集来源于CHIP2022医疗因果实体关系抽取学术评测任务：http://cips-chip.org.cn/2022/eval2 , 包括2,000段训练数据，2,000段测试数据。本数据集由阿里巴巴夸克医疗事业部和阿里云天池联合提供。

JSON

医疗对话临床发现阴阳性判别数据集MDCFNPC

本数据集来源于CHIP2021医疗对话临床发现阴阳性判别学术评测任务：http://cips-chip.org.cn/2021/eval1 , 数据集包括6,000段训练数据，4,000段测试数据。本数据集由阿里夸克医疗事业部和阿里云天池平台联合提供。

JSON

新冠疫情相似句对判定数据集

新冠疫情相似句对判定数据集来自天池大赛：https://tianchi.aliyun.com/competition/entrance/231776/information

JSON

中药说明书实体识别数据集TCM-NER

本数据集来源于天池中医药实体识别大赛：https://tianchi.aliyun.com/competition/entrance/531824/information。数据来自中药药品说明书，通过挖掘中药说明书构建中药合理用药的知识图谱，将为中医规范诊疗奠定较好基础。抽取中药药品说明书中的关键信息可以帮助扩充中医药药品知识库。

JSON

中医文献问题生成数据集TCM-QG

本数据集来自天池中医药问题生成大赛：https://tianchi.aliyun.com/competition/entrance/531826/information 。中医文献问题生成数据集包含3500篇语料，每篇文档由人工标注产生1～4对(问题, 答案)对。

JSON

中文糖尿病科研文献实体关系数据集DiaKG

瑞金糖尿病知识图谱数据集，来源天池比赛：https://tianchi.aliyun.com/competition/entrance/231687/introduction

JSON

找到304个数据集