CliMedBench:包括 14个核心临床场景的 33,735 个问题,评估 LLMs 在七个维度上的能力,一个从真实医疗案例中衍生出来的强大基准测试。
2024-10-04, 由华东师范大学、哈索·普拉特纳研究所和上海交通大学的研究团队联合创建了CliMedBench。这是一个包含14个专家指导的核心临床场景的综合基准,旨在全面评估LLMs的医疗能力。数据集由顶级三级医院的真实医疗报告和真实的考试练习中提取出33,735个问题构成,其可靠性已经得到了验证。
一、研究背景:
随着人工智能技术的发展,大型语言模型(LLMs)在医疗领域的应用潜力不断增加,它们被设计用来解决复杂的医疗问题,提供诊断辅助和治疗建议。然而,目前缺乏一个全面和系统的评估标准来衡量这些模型的性能,包括回答的准确性、产生幻觉的频率和内容的安全性。
目前遇到困难和挑战:
1、中国医学LLMs 在这个基准上表现不佳,尤其是在医学推理和事实一致性至关重要的情况下,这凸显了临床知识和诊断准确性需要进步。
2、一些通用域LLMs 在医疗诊所中显示出巨大的潜力,而许多医疗LLMs阻碍了它们的实际应用。
3、医疗环境中固有的不确定性会严重影响模型生成响应的准确性。
二、让我们一起来看一下数据集
CliMedBench是一个针对中文医疗大型语言模型的大规模评估基准,包含14个核心临床场景的33,735 个问题,涵盖基础知识测试、院内诊断、临床路径推理、病例总结、错误治疗检测等,这使得 CliMedBench 能够从临床问答、知识应用、推理、信息检索、总结能力、幻觉和毒性等七个角度评估LLMs的医疗能力。数据集来源于中国顶级三级医院的真实电子健康记录(EHRs),结合考试练习、医疗指南、教科书、学术文章和人工注释的在线咨询。
数据集特点:
1、真实性和独特性:使用专家注释的EHRs,提供真实见解,减少数据污染。
2、全面性和多维性:涵盖多种医学专业,提供广泛的评估视角。
3、实用性:采用基于代理的计算机自适应测试方法,确保快速评估。
数据集包含多种问题类型,包括多项选择临床问答、排序问题(例如,手术步骤重新排序)和开放式生成(例如出院总结、主观临床问答),适用于不同的评估需求。
基准测试:
通过评估11个具有代表性的LLMs,包括通用和医疗特定模型,使用多种评估指标,如准确度、Kendall's τ和ROUGE-1等。
三、展望CliMedBench数据集应用场景
比如,你是一位资深的内科医生,今天你遇到了一个挺棘手的病例。一位55岁的男性患者来到你的诊室,他主诉过去两周反复出现胸痛、呼吸困难和浮肿,尤其是在做体力活动时更加明显。你根据他的症状和体征,以及你的临床经验,初步判断可能是心力衰竭。
你会安排一些检查,比如心脏超声、血液里的BNP水平测试、胸部X光等等。然后根据检查结果,你可能会给他开一些利尿剂、ACE抑制剂或者β受体阻滞剂。
但是,你也知道,每个人的情况都是独一无二的,有时候你可能会漏掉一些关键信息,或者在治疗方案的选择上有些犹豫不决。
现在,有了CliMedBench数据集训练的智能系统:
第一步:更全面的病史采集
当患者进来时,智能系统会提醒你,除了询问胸痛的性质,还要关注患者的活动耐量、下肢浮肿情况,甚至是他的饮食习惯和心理压力。系统会根据数据集里的类似案例,给你提供一份结构化的病史采集清单。
第二步:更精准的检查安排
系统会根据患者的症状和病史,建议你做哪些检查,并且解释为什么需要这些检查。比如,它会告诉你,BNP水平测试对于心力衰竭的诊断特别重要,而D-二聚体水平测试可以帮助排除肺栓塞。
第三步:更深入的病情分析
当检查结果出来后,系统会帮你分析数据,比如心脏超声的结果,系统会指出哪些指标是关键,哪些指标的变化趋势需要关注。它还会根据数据集里的统计信息,告诉你在类似情况下,这些检查结果意味着什么。
第四步:更多样的治疗选择
系统会提供几种治疗选项,并给出每种选项的利弊和可能的长期效果。比如,它会告诉你,对于某些心力衰竭患者,心脏再同步治疗(CRT)可能是一个更好的选择。
第五步:更便捷的患者教育
系统还会提供一些患者教育资料,帮助你向患者解释病情和治疗方案,让患者对自己的疾病有更清晰的认识。
第六步:更有效的长期管理
在患者出院后,系统会根据数据集里的长期跟踪数据,提醒你哪些因素会影响患者的预后,哪些并发症需要警惕,以及如何调整治疗方案。
第七步:更及时的反馈和改进
系统还会根据患者的反馈和治疗结果,不断学习和改进,为你提供更准确的建议。
通过CliMedBench数据集训练的智能系统,它帮你更全面地收集信息,更精准地做出决策。让我们更好的为患者提供医疗服务。