浙江大学—大规模细粒度中文概念图谱OpenConcepts

OpenConcepts 介绍 OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法的大规模中文概念图谱。概念是人脑对事物的本质反应，能够帮助机器更好的理解自然语言。相较于传统的知识图谱，OpenConcepts包含大量中文细粒度概念，且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实体，OpenConcepts不仅包含“香港歌手”、“演员”等传统概念，还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。
OpenConcepts构建构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建，其构建成本非常高昂。ZJCG采取完全自动化构建的方式，基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术，实现概念知识图谱的自动化构建。相较于传统的概念知识图谱，OpenConcepts的特点在于：（1）OpenConcepts包含大量的中文细粒度概念，这部分细粒度概念填补了中文细粒度知识的空白。（2）OpenConcepts是基于全自动化构建的方式，其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架，具备自动化抽取、自动化扩展、自动化更新的能力。 OpenConcepts的自动化构建主要分为两大模块，1）概念知识的自动化抽取 2）概念知识的融合。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念，我们采取短语挖掘和序列标注相结合的策略，通过实体-概念模板和无监督短语挖掘构造弱监督样本，并基于迭代的降噪学习训练基于序列标注的概念抽取模型（http://openconcepts.openkg.cn/concept_extract/），在离线测试集上概念抽取模型准确率可达0.89，召回率可达0.85。然后，我们对抽取到的不同的实体和概念进行融合，并通过贝叶斯估计过滤掉低置信度的概念。此外，我们也构造人工规则约束对高层次的概念进行人工干预，保证准确率。
OpenConcepts规模和用途
本次，我们开源了OpenConcepts中的440万概念核心实体，以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体。我们的数据还在不断更新中。本次开源的数据可在openkg.cn 获取，OpenConcepts能够为智能推荐、智能问答、人机对话等应用提供数据支持。

数据与资源

网站主页地址 _{【下载量：822】}
浏览
- 更多信息
- 前往资源
OpenConcepts数据JSON _{【下载量：725】}
json格式
浏览
- 预览
- 下载
OpenConcepts数据ttl _{【下载量：162】}
ttl格式
浏览
- 更多信息
- 下载
OpenConcepts数据json-ld _{【下载量：150】}
json-ld格式
浏览
- 更多信息
- 下载

其他信息

域	价值
维护者	张宁豫: zhangningyu@zju.edu.cn; 唐坤: tk_zstu@126.com; 邓鸿杰: dhj_mr@zju.edu.cn;
最近更新	一月 12, 2022, 01:41 (UTC)
创建的	一月 12, 2022, 01:41 (UTC)