-
GuwenEE:细粒度古汉语事件抽取数据集
面向古汉语领域事件抽取的数据集,原始数据是从《二十四史》中按篇随机选取而来,包含语料950条,事件Schema72个,包含事件1826个。 -
基于cnScheme的外国文学研究领域知识图谱
基于开放域数据CNKI的12833 篇研究文献作为语料来源,将文献中的关键词作为主题关键词,作者作为研究人员。通过爬虫爬取结构化数据作为知识图谱基本数据,结合爬取一些自然语言数据与半结构化数据,并进行语义抽取构建了外国文学研究领域的核心数据 在上述基础上,我们进行了实体对齐与部分的实体消歧,比如译名的对齐:列夫·托尔斯泰 和 托尔斯泰... -
author_article_school
从知网下载的4000条左右的论文数据集,总共三个实体 作者(author_id,name) 论文(article_id,summary,urls,year,article_name,cite,down) 就读高校(school_id,school_name) 关系:write_to,graduate_to 可以直接导入Neo4j使用