DiaKG: 糖尿病知识图谱数据集

【使用说明】

1、本数据集来源于公开发表的41篇糖尿病指南和共识,涵盖了近年来最广泛的研究内容和热点领域,是构建糖尿病知识库的权威资源;

2、本数据集只可以用于自然语言处理的学术科研,不可用于商业目的。

本数据集标注由两位经验丰富的内分泌专家设计了标注指南。本指南侧重于“实体”和“关系”,共定义了18类实体类型和15类医学关系。数据集共包含22050个实体和6890个关系。

相比其他医疗数据集,DiaKG有以下两个特点:

1.实体数据可能由很长的序列span组成,如实体“发病机理(pathogenesis)”平均长度是10.3个中文字符,对常规的NER模型是个挑战;

2.组成关系的两个实体跨句子分布,平均跨句长度为2.3,头尾实体跨句子分布是关系抽取任务的难点,也是近年来的关系抽取的研究热点。

希望DiaKG的推出能进一步推动中文医学文本信息抽取技术的发展。有关DiaKG更详细的信息,请参考CCKS 2021上录用发表的论文“DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction”。

数据与资源

其他信息

价值
作者 妙健康,阿里云
维护者 刘利平
最近更新 八月 2, 2021, 07:17 (UTC)
创建的 八月 2, 2021, 07:17 (UTC)