多模态实体链接数据集 MELBench

1. 摘要

多模态实体链接是多模态数据处理的基础任务之一，旨在将多模态数据中的实体链接到知识图谱中，在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而，目前开源和能重现的多模态实体链接数据集还很少，一定程度上制约着相关工作的研究。东南大学团队发布的多模态实体链接数据集MELBench包含3个任务：Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集，数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域，分别包含25,602、18,880和17,806条多模态实体链接数据，每条数据均为人工标注，包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接（MEL）任务提供基准数据支持。MELBench 的访问地址为 https://github.com/seukgcode/MELBench。

2. 多模态实体链接（MEL）

实体链接（EL）是将实体描述映射到知识图谱中相应实体的任务，在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而，一方面，通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面，在现实世界的数据中，例如社交媒体、百科知识和多模态知识图谱等领域数据，通常同时使用文本和视觉信息描述相应实体。因此，有必要结合多模态信息解决EL问题，这一任务也被称为多模态实体链接（MEL）。

3. 数据集构建

为了构建大规模MEL数据集，促进相关研究，我们提出了一种MEL数据集构建方法，包括五个阶段，如下图所示。在多模态信息抽取阶段，我们选择不同的现实世界多模态数据源，提取文本和视觉信息；在提及抽取阶段，我们从文本信息中获取提及，并保留可能存在相应实体的提及；在实体抽取阶段，我们用上一阶段保留的提及查询知识图谱，收集相关实体列表，并保留提及相应的实体；在三元组构建阶段，我们将相应的提及和实体合并为提及-实体对，并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组；最后，在数据集构建阶段，我们按照7:1:2的比例，将数据分为训练集，验证集和测试集。

4. 数据集详情

基于上述的MEL数据集构建方法，我们完成了三个MEL数据集构建：

Weibo-MEL采用微博作为多模态数据源，并采用CN-DBpedia作为知识图谱。数据集包含25,602个样本，对应31,516个提及-实体对。
Wikidata-MEL采用Wikidata和Wikipedia作为多模态数据源，并采用Wikidata作为知识图谱。数据集包含18,880个样本，对应22,534个提及-实体对。
Richpedia-MEL采用Richpedia和Wikipedia作为多模态数据源，同样采用Wikidata作为知识图谱。数据集包含17,806个样本，对应20,752个提及-实体对。

此外，我们统计了数据集的文本长度和提及数量，如下图所示，三个数据集具有较大差异，体现了不同领域的数据特征。

开发团队

数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成，指导老师汪鹏。

数据与资源

Weibo-MELJSON _{【下载量：256】}
Weibo-MEL 数据集，不含图像和知识图谱。
浏览
- 预览
- 下载
Wikidata-MELJSON _{【下载量：121】}
Wikidata-MEL 数据集，不含图像和知识图谱。
浏览
- 预览
- 下载
Richpedia-MELJSON _{【下载量：83】}
Richpedia-MEL 数据集，不含图像和知识图谱。
浏览
- 预览
- 下载

其他信息

域	价值
源	https://github.com/seukgcode/MELBench
作者	汪鹏周星辰邓臻凯李国正谢佳锋吴江恒
维护者	汪鹏周星辰邓臻凯李国正谢佳锋吴江恒
版本	1.0
最近更新	八月 13, 2021, 09:20 (UTC)
创建的	八月 13, 2021, 09:20 (UTC)