dedupe: 知识链接python库

OpenKG搜集和整理知识图谱相关的技术工具,并将组织开展技术评测。

dedupe是一个用于fuzzy matching, record deduplication 和 entity-resolution的python库。它基于active learing的方法,只需用户标注它在计算过程选择的少量数据,即可有效地训练出复合的blocking方法和record间相似性的计算方法,并通过聚类完成匹配。dedupe支持多种灵活的数据类型和自定义类型。

dedupe基于论文http://www.cs.utexas.edu/~ml/papers/marlin-dissertation-06.pdf实现。

数据与资源

其他信息

价值
https://github.com/datamade/dedupe
作者 Gregg, Forest, and Derek Eder.
最近更新 三月 16, 2017, 11:49 (UTC)
创建的 三月 16, 2017, 11:49 (UTC)