-
基于众包标注系统的文言文语言理解测评基准及数据集
C-CLUE是一个基于众包标注系统构建的文言文语言理解测评基准及数据集,由天津大学数据库课题组贡献。本次开源了由系统标注结果获取的近2万个实体以及4千多个关系,并处理分割成为训练集、校验集、测试集等文件,... -
新冠开放知识图谱.诊疗
新型冠状病毒肺炎诊疗知识图谱主要基于国家卫生健康委发布的《新型冠状病毒肺炎诊疗方案(试行第八版)》《新型冠状病毒肺炎重型、危重型病例诊疗方案(试行第二版)》进行构建,关系类型包括临床表现、实验室检查、诊断标准等。潜在应用:提供新冠肺炎的基本诊疗知识,用于临床知识问答、辅助决策等。更多知识图谱数据访问入口链接 -
使用Lean 4 的Mathlib 库的数学知识图谱
Lean 4 是一种计算机辅助证明系统(proofassistant),或称交互式证明系统 (in teractive theorem prover),可用于形式化验证数学定理或计算机程序的正确性。 Mathlib 是 Lean 4 的数学库,它背后有一个活跃的开发团队,包括许多数学家... -
中文多模态命名实体识别数据集
Wukong-CMNER,一个多模态NER数据集包含图像和文本的语料库。有55423个注释我们语料库中的图像-文本对。本数据是由华为发布的Wukong数据集标注得到,感谢华为公司允许对数据进行标注。 -
《红楼梦》人物关系知识图谱
本项目构建了《红楼梦》中的各人物以及他们之间的人物关系的知识图谱。主要包括四部分工作:(1)数据获取与预处理;(2)命名实体识别;(3)实体关系抽取;(4)可视化与知识问答。 -
运维知识图谱
冶金企业的行车设备的故障运维知识,大类实体3750、小类实体942、实体属性300、实体关系1027、带有类别标签的三元组1086。 后续将继续增加,尽请期待! -
需求文本数据
标注了不可验证需求、不完整需求、模糊需求等需求文本中常见的表述缺陷问题。 -
石油勘探开发数据集
There is no description for this dataset
-
2020年中国排名前一百大学知识图谱
本项目是根据2020年校友会发布的中国前一百大学排行榜来获取中国百强大学的相关信息。提取的主要信息包括有大学的中文英文名称,大学的缩写,大学所属的类型,大学的主管部门和创办时间等等。... -
宝可梦数据集
宝可梦游戏以及动画中的人物,地点以及宝可梦的数据集。其中部分利用网络爬虫构建,relation中的关系则使用中文bert进行抽取得到。 -
10万中文人物关系图谱数据集
近十万的人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条。可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究工作。 -
35万中文抽象知识三元组
高质量的346048条中文抽象知识三元组知识库,来源于公开网络文本抽象三元组挖掘、人工手工整理等多个渠道,覆盖商品、行业、动作、性状、名词性实体等多种类型。可用于查询扩展、句子改写、句子相似度计算、句子推荐等多个应用场景。 -
43万中文同义知识三元组
43万中文同义知识三元组,来源于公开数据文本同义词挖掘、词典整理与人工修正等多个渠道,可用于同义词扩展相关应用,如搜索扩展查询、句子相似度计算等。格式为词语1,同义,词语2。 -
OMAHA汇知医学知识图谱样例数据
开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)构建的医学知识图谱样例数据,目前已包括药品适应证和临床路径知识图谱。 完整数据包访问入口链接 -
87万通用领域实体概念描述三元组
87万实体概念描述知识库,基于开放文本挖掘而成,格式为[实体/概念,描述体,置信度],... -
企业投融资事件知识图谱
简介:企业投融资事件知识图谱旨在反映企业之间的投融资关系,有助于帮助投资者理清企业脉络,更好地进行投资决策。其中主要包含企业的基础信息和企业之间的投资事件信息。 -
中文症状库
这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。我们为该数据集提供了关键词查询和SPARQL查询功能(http://dsc.nlp-bigdatalab.org:8081/search.html)。 -
华人家谱关联数据集
家谱,又称谱牒、族谱、宗谱、家乘、世谱等,是同宗共祖的血亲团体记载本族世系和相关事迹、反映本家族繁衍发展过程的历史图籍。它与正史、方志、构成了中华民族历史大厦的三大支柱,在中国乃至世界文明的文明发展历史上,堪称弥足珍贵的文化遗产。 -
常识因果关系网络(英文)
从Bing网页快照(英文)数据中利用pattern提取可能的因果关系对。词对中的单词均包含在WordNet 3.0 中的名词、动词、形容词和副词中。数据集的抽取和相关应用可以参考文章:Commonsense Causal Reasoning between Short Texts... -
200万条商品画像数据
使用说明: 每一行表示一条商品信息,包括字段: 商品标题 商品url 价格 商品描述 品牌 对应百分点类目 用‘\t’分割。...