CliMedBench：包括 14个核心临床场景的 33,735 个问题，评估 LLMs 在七个维度上的能力，一个从真实医疗案例中衍生出来的强大基准测试。

2024-10-04, 由华东师范大学、哈索·普拉特纳研究所和上海交通大学的研究团队联合创建了CliMedBench。这是一个包含14个专家指导的核心临床场景的综合基准，旨在全面评估LLMs的医疗能力。数据集由顶级三级医院的真实医疗报告和真实的考试练习中提取出33,735个问题构成，其可靠性已经得到了验证。

一、研究背景：

随着人工智能技术的发展，大型语言模型（LLMs）在医疗领域的应用潜力不断增加，它们被设计用来解决复杂的医疗问题，提供诊断辅助和治疗建议。然而，目前缺乏一个全面和系统的评估标准来衡量这些模型的性能，包括回答的准确性、产生幻觉的频率和内容的安全性。

目前遇到困难和挑战：

1、中国医学LLMs 在这个基准上表现不佳，尤其是在医学推理和事实一致性至关重要的情况下，这凸显了临床知识和诊断准确性需要进步。

2、一些通用域LLMs 在医疗诊所中显示出巨大的潜力，而许多医疗LLMs阻碍了它们的实际应用。

3、医疗环境中固有的不确定性会严重影响模型生成响应的准确性。

数据集地址：CliMedBench|医疗数据集|语言模型评估数据集

二、让我们一起来看一下数据集

CliMedBench是一个针对中文医疗大型语言模型的大规模评估基准，包含14个核心临床场景的33,735 个问题，涵盖基础知识测试、院内诊断、临床路径推理、病例总结、错误治疗检测等，这使得 CliMedBench 能够从临床问答、知识应用、推理、信息检索、总结能力、幻觉和毒性等七个角度评估LLMs的医疗能力。数据集来源于中国顶级三级医院的真实电子健康记录（EHRs）,结合考试练习、医疗指南、教科书、学术文章和人工注释的在线咨询。

数据集特点：

1、真实性和独特性：使用专家注释的EHRs，提供真实见解，减少数据污染。

2、全面性和多维性：涵盖多种医学专业，提供广泛的评估视角。

3、实用性：采用基于代理的计算机自适应测试方法，确保快速评估。

数据集包含多种问题类型，包括多项选择临床问答、排序问题(例如，手术步骤重新排序)和开放式生成(例如出院总结、主观临床问答)，适用于不同的评估需求。

基准测试：

通过评估11个具有代表性的LLMs，包括通用和医疗特定模型，使用多种评估指标，如准确度、Kendall's τ和ROUGE-1等。

三、展望CliMedBench数据集应用场景

比如，你是一位资深的内科医生，今天你遇到了一个挺棘手的病例。一位55岁的男性患者来到你的诊室，他主诉过去两周反复出现胸痛、呼吸困难和浮肿，尤其是在做体力活动时更加明显。你根据他的症状和体征，以及你的临床经验，初步判断可能是心力衰竭。

你会安排一些检查，比如心脏超声、血液里的BNP水平测试、胸部X光等等。然后根据检查结果，你可能会给他开一些利尿剂、ACE抑制剂或者β受体阻滞剂。

但是，你也知道，每个人的情况都是独一无二的，有时候你可能会漏掉一些关键信息，或者在治疗方案的选择上有些犹豫不决。

现在，有了CliMedBench数据集训练的智能系统：

第一步：更全面的病史采集

当患者进来时，智能系统会提醒你，除了询问胸痛的性质，还要关注患者的活动耐量、下肢浮肿情况，甚至是他的饮食习惯和心理压力。系统会根据数据集里的类似案例，给你提供一份结构化的病史采集清单。

第二步：更精准的检查安排

系统会根据患者的症状和病史，建议你做哪些检查，并且解释为什么需要这些检查。比如，它会告诉你，BNP水平测试对于心力衰竭的诊断特别重要，而D-二聚体水平测试可以帮助排除肺栓塞。

第三步：更深入的病情分析

当检查结果出来后，系统会帮你分析数据，比如心脏超声的结果，系统会指出哪些指标是关键，哪些指标的变化趋势需要关注。它还会根据数据集里的统计信息，告诉你在类似情况下，这些检查结果意味着什么。

第四步：更多样的治疗选择

系统会提供几种治疗选项，并给出每种选项的利弊和可能的长期效果。比如，它会告诉你，对于某些心力衰竭患者，心脏再同步治疗（CRT）可能是一个更好的选择。

第五步：更便捷的患者教育

系统还会提供一些患者教育资料，帮助你向患者解释病情和治疗方案，让患者对自己的疾病有更清晰的认识。

第六步：更有效的长期管理

在患者出院后，系统会根据数据集里的长期跟踪数据，提醒你哪些因素会影响患者的预后，哪些并发症需要警惕，以及如何调整治疗方案。

第七步：更及时的反馈和改进

系统还会根据患者的反馈和治疗结果，不断学习和改进，为你提供更准确的建议。

通过CliMedBench数据集训练的智能系统，它帮你更全面地收集信息，更精准地做出决策。让我们更好的为患者提供医疗服务。

更多免费的数据集，请打开：遇见数据集

https://www.selectdataset.com/

posted @ 2024-11-08 10:43 数据猎手小k 阅读(115) 评论(0) 收藏举报来源

刷新页面返回顶部