OneKE: 中英双语知识抽取大模型

OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。

大语言模型目前已显著提升了人工智能系统处理世界知识的能力,然而,以大语言模型为代表的生成式人工智能依然存在推理能力不足、事实知识匮乏、生成结果不稳定等问题,这些都极大的阻碍了大语言模型的产业化落地。 为克服上述问题,加速推进可控生成式人工智能的产业落地,依托校企战略合作框架,蚂蚁集团和浙江大学成立知识图谱联合实验室,以期通过联合技术攻坚构建大语言模型与知识图谱双向增强的可控生成技术范式,围绕大模型增强的知识图谱构建、知识增强的可控生成、领域常识世界图谱等课题展开全方位合作。

基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。针对上述问题,蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于LLaMA2全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。

统一知识抽取框架有比较广阔的应用场景,可大幅降低领域知识图谱的构建成本。通过从海量的数据中萃取结构化知识,构建高质量知识图谱并建立知识要素间的逻辑关联,可以实现可解释的推理决策,也可用于增强大模型缓解幻觉并提升稳定性,加速大模型垂直领域的落地应用。如应用在医疗领域通过知识抽取实现医生经验的知识化规则化管理,构建可控的辅助诊疗和医疗问答。应用在金融领域抽取金融指标、风险事件、因果逻辑及产业链等,实现自动的金融研报生成、风险预测、产业链分析等。应用在政务场景实现政务法规的知识化,提升政务服务的办事效率和准确决策。

数据与资源

其他信息

价值
作者 张宁豫(浙江大学)、梁磊(蚂蚁集团)、桂鸿浩(浙江大学)、袁琳(蚂蚁集团)、孙梦姝(蚂蚁集团)、徐军(蚂蚁集团)、渠源(蚂蚁集团)、王昊奋(客座专家,同济大学)、张锦添(浙江大学)、张文(浙江大学)、张强(浙江大学)、乔硕斐(浙江大学)、徐欣(浙江大学)、方继展(浙江大学)、罗玉洁(浙江大学)、张志强(蚂蚁集团)、周俊(蚂蚁集团)、陈文光(清华大学)、陈华钧(浙江大学)
最近更新 四月 18, 2024, 07:35 (UTC)
创建的 四月 11, 2024, 09:55 (UTC)