浙江大学—大规模细粒度中文概念图谱OpenConcepts

  1. OpenConcepts 介绍 OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法的大规模中文概念图谱。概念是人脑对事物的本质反应,能够帮助机器更好的理解自然语言。相较于传统的知识图谱,OpenConcepts包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实体,OpenConcepts不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

  2. OpenConcepts构建 构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建,其构建成本非常高昂。ZJCG采取完全自动化构建的方式,基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术,实现概念知识图谱的自动化构建。相较于传统的概念知识图谱,OpenConcepts的特点在于: (1)OpenConcepts包含大量的中文细粒度概念,这部分细粒度概念填补了中文细粒度知识的空白。 (2)OpenConcepts是基于全自动化构建的方式,其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架,具备自动化抽取、自动化扩展、自动化更新的能力。 OpenConcepts的自动化构建主要分为两大模块,1)概念知识的自动化抽取 2) 概念知识的融合。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念,我们采取短语挖掘和序列标注相结合的策略,通过实体-概念模板和无监督短语挖掘构造弱监督样本,并基于迭代的降噪学习训练基于序列标注的概念抽取模型(http://openconcepts.openkg.cn/concept_extract/),在离线测试集上概念抽取模型准确率可达0.89,召回率可达0.85。然后,我们对抽取到的不同的实体和概念进行融合,并通过贝叶斯估计过滤掉低置信度的概念。此外,我们也构造人工规则约束对高层次的概念进行人工干预,保证准确率。

  3. OpenConcepts规模和用途
    本次,我们开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体。我们的数据还在不断更新中。本次开源的数据可在openkg.cn 获取,OpenConcepts能够为智能推荐、智能问答、人机对话等应用提供数据支持。

数据与资源

其他信息

价值
维护者 张宁豫: zhangningyu@zju.edu.cn; 唐坤: tk_zstu@126.com; 邓鸿杰: dhj_mr@zju.edu.cn;
最近更新 一月 12, 2022, 01:41 (UTC)
创建的 一月 12, 2022, 01:41 (UTC)