数据集概况
本数据集为基于医疗泌尿专科知识构造的QA推理数据集,由蚂蚁集团医疗大模型团队(AntGroup Medical LLM)与上海交通大学医学院附属仁济医院泌尿科(Department of Urology, Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital)专家团队合作研发,简称为RJUA-QA Datasets。数据来源于医生参考临床经验中真实患者情况,改写的虚拟患者临床数据,不涉及任何医患隐私数据,经AI模型和专家团队处理校验,构建为问答对(Q-context-A)。
本数据集包含2132个QA问答对,Context来自于中国泌尿外科和男科疾病诊断治疗指南。Question为虚拟患者临床数据,Answer为大模型生成后由泌尿科专家团队标注。虚拟患者的临床参考数据覆盖2019-2023连续5年的时间跨度,包括门诊诊疗、急诊抢救、住院手术和操作、以及日常科普等多形式的资源。病种涵盖泌尿系肿瘤、泌尿系结石、前列腺增生、男性、尿控、泌尿道整复、小儿泌尿、肾移植等10个亚专业,病种覆盖率占泌尿科就诊患者的97.6%。数据集由上海仁济医院泌尿科医生团队参与构建,确保医疗领域专科数据的真实性、精准度和可靠性。
数据集特点与价值
- 真实临床背景:数据来源于专科医生经验改写的虚拟患者数据,覆盖近5年科室专家临床经验,具有很高的现实意义和应用价值。
- 多样性:问题涵盖了泌尿专科的多个方面,占比泌尿专科全病种的95%,有助于提升模型应用的泛化能力。
- 可解释性:提供详细的专科证据和推理过程,有助于分析模型的推理逻辑,提高可解释性。
本数据集旨在提高大型语言模型在医疗诊断推理方面的能力,并作为在严肃可控场景下应用的评测基准。我们将详细介绍数据集的构建过程、特点及统计分析,并全面评测了行业和通用大模型在该数据集上的性能,后续团队将持续优化数据集,为人工智能在医疗领域的研究与应用提供有力支持。
使用说明
数据格式
问题、文档和答案均以纯文本形式存储,以Json格式提供。
数据集中划分为3个文件,其中训练集和验证集用于模型训练和验证,测试集用于模型推理指标评测。
- train:训练集
- valid: 验证集
- test: 测试集
每个文件的具体字段包括:
- 数据标号:id
- Question: 问题
- Context: 参考文本
- Answer: 答案
- Disease:诊断疾病
- Advice:诊疗建议
推理评估指标
本数据集设计的评测任务主要目标是针对基于虚拟患者问题以及专科医生回答,待评测模型需参考医生给出的相关医学知识作为context,比较模型产出的回答结果与专科医生回答结果的一致性。具体评估指标设计如下:
- F1:推理正确性指标,计算F1分数来评估疾病诊断及治疗方案的准确程度。
- 精确率:P=TP/(TP+FP)
- 召回率:R=TP/(TP+FN)
- F1 = 2PR/(P+R)
- F1 = average((2*F1_disease + F1_advice)/ 3)
- 说明:分别计算得到两个F1指标:F1_disease、F1_advice。最终得分为两个F1以2:1的权重加权得到。
- RougeL:对话相关性指标,计算Rouge-L来评估对话回复整体和医生回复的一致程度,计算公式参考:https://aclanthology.org/W04-1013.pdf
- P = LCS(S1, S2)/len(S1)
- R = LCS(S1, S2)/len(S2)
- Rouge-L = 2PR/(P+R)
- 说明:其中S1为模型输出回复文本,S2为数据集中医生回复文本,LCS为S1和S2的最长公共子序列,len(S)为S的长度。
引用
如果你觉得我们的工作有帮助的话,使用了我们的数据集,请引用下列说明,后续我们会持续优化数据集,并更新可引用的arxiv论文:
@datasets{
title={RJUA-QA Datasets: QA Reasoning Dataset Constructed from Specialized Urological Medical Knowledge},
author={RJU, AntGroup},
datasets url={http://openkg.cn/dataset/rjua-qadatasets},
journal={arXiv preprint arXiv: update later},
year={2023}
}
如有任何关于数据集的问题或建议,请通过以下方式与我们联系:chichenfei@renji.com,huangyiran@renji.com, hongbo.chb@antgroup.com , zhanying@antgroup.com
注意:在使用数据集时,请确保遵循相关法律法规和数据隐私政策。