CasiMedicos-Arg数据集:首个多语言医疗问答数据集,医生对患者解释库:由558 个临床病例组成,标注了5021个主张,2313个前提,2431个支持关系和1106个攻击关系。
2024-10-08,由法国尼斯大学CNRS、Inria、I3S以及西班牙巴斯克大学HiTZ中心的研究人员们创建了首个多语言医疗问答数据集CasiMedicos-Arg,在医学领域,AI系统的决策不仅需要准确,还需要能够被医生和患者理解。该数据集其中包含正确和错误的诊断结果,并由医生提供自然语言解释
一、研究背景:
在当今的人工智能领域,解释AI决策是一个主要挑战。医学领域应用AI的研究越来越多,目的是开发技术以协助和支持医生解释他们的决策过程
目前遇到困难和挑战
1、大多数医学问答(QA)数据集主要集中在提供医学考试中的正确答案,通常是多项选择的形式,而医生还需要解释和论证他们的预测,但目前很少有研究关注医学问答中的论证性解释的识别和生成。
2、现有的医学QA基准测试大多数只有英文版本,这限制了对当前大型语言模型在其他语言的医学QA能力进行测试的可能性。
3、尽管已有一些多语言医学QA数据集,但它们并没有提供由医生撰写的、包含论证结构的解释,这对于训练AI解释其决策至关重要。
二、让我们一起看一下CasiMedicos-Arg数据集
CasiMedicos-Arg 通过提供带有解释性论证结构的医学问答数据,来推进医学领域中人工智能的解释能力。
数据集特点:
1、多语言:包含英语、西班牙语、法语和意大利语,有助于跨语言的医学AI研究。
2、论证结构注释:每个解释都包含详细的论证成分和关系注释,如前提、主张、支持和攻击。
3、临床案例:数据集包含558个临床案例,覆盖了广泛的医学问题。
数据标注:
1、主张(Claims):5021个,代表医生对病例的结论或主张。
2、前提(Premises):2313个,作为支持主张的观察或事实。
3、支持关系(Support Relations):2431个,表示前提如何支持主张。
4、攻击关系(Attack Relations):1106个,表示前提如何反驳或质疑主张。
基准测试
研究者们展示了使用不同编码器(如BERT和mDeBERTa)和解码器(如LLaMa和Mistral)的基线模型在该数据集上的表现,证明了数据集的有效性。
三、展望CasiMedicos-Arg数据集的应用
比如,我是一名住院医生,最近我遇到了一个特别棘手的病例:一位患者出现了多发性症状,包括认知功能障碍、肌无力和视觉障碍。这些症状可能指向一种罕见的自身免疫性脑炎,但也可能是多发性硬化症或其他神经系统疾病。这种时候,向患者和家属解释可能的病因、诊断过程和治疗方案,对我来说是个巨大的挑战。
以前,我可能会这样对患者家属说:“您家人的这些症状可能涉及神经系统的多个部分,我们需要进行一系列复杂的检查,包括脑脊液检查、核磁共振成像和可能的脑活检,来确定病因。” 然后,我得绞尽脑汁用最简单的话来解释这些复杂的检查和可能的病因。
现在,有了CasiMedicos-Arg数据集训练出的智能系统:
系统不仅帮我整理了可能的病因和诊断步骤,还提供了一种更清晰、更易于理解的方式来向患者家属传达信息。
1、智能系统的辅助:“您家人的这些症状,让我们觉得可能和大脑的自身免疫反应有关。这就像是身体的一部分开始错误地攻击自己的大脑,导致了一系列的问题。”
2、提供背景信息:“您可以把大脑想象成是一块电路板,上面有很多的线路和开关。如果有些线路出现了短路,那么大脑的某些功能就会受到影响,比如记忆、肌肉控制和视觉。”
3、解释检查流程:“我们会先抽取一点脑脊液,这有点像检查汽车的机油,看看里面有没有异常。然后,我们会用一个很大的磁铁——也就是核磁共振成像——来详细查看大脑的各个部分。如果需要,我们可能还会做一个小手术,取一点点大脑组织来检查。”
4、预后和治疗建议:“一旦我们确定了问题所在,我们就能制定一个治疗计划。如果是自身免疫性脑炎,我们可能会使用免疫抑制剂来平息大脑的‘错误攻击’。如果是其他问题,比如多发性硬化症,我们可能需要考虑其他类型的药物治疗。”
我能够用通俗易懂的话解释复杂的医学概念,帮助家属和患者理解。这不仅减轻了我的沟通负担,也让患者家属感到更加安心和明白。