通用 AI 模型是医疗保健的最佳选择吗?
通用 AI 模型是医疗保健的最佳选择吗?
强迫机器学习模型在任何地方都能工作可能只是在引导它们变得平庸
假设您是一名计划外科手术的医生,并且您希望为患者可能遇到的任何潜在的术后问题做好准备。医院可以使用一种新的机器学习工具,该工具将根据患者的健康记录、当前的生命体征、他们将接受的手术类型和相关信息预测可能出现的下游并发症。你插入这些信息,它会给你一个答案。
你对这个预测有多少信心?
这似乎是一种“视情况而定”的答案。例如,如果您在一家较小的乡村医院工作,您的信心会改变吗?该模型是否适用于您通常看到的特定患者群体?
对模型预测的信任和信心至关重要,因此这些重要问题将随着预测模型被纳入医疗保健而变得更加普遍。
所有这些问题的核心元素都与模型的“普遍性”有关。
泛化模型
创建 AI 模型的假设之一是,当完成并准备好供外部世界使用时,它应该是可推广的。泛化可以用不同的方式定义,但在这里想象它的最简单方法可能是模型能够跨不同医院(地理区域)工作。一个泛化良好的模型在纽约的一家医院中做出的预测与在旧金山或宾夕法尼亚州农村的一家医院中做出的预测一样好。这延伸到患者群体。我们假设一个好的模型将对大多数患者做出良好的预测,无论它在哪里使用。
这种展示模型可推广的愿望本质上来自这些模型的创建和验证方式。您拥有最初用于训练模型的数据。然后,为了向其他人展示它确实按照你所说的方式工作,你展示了它对一组新数据(测试数据集)的预测
这个目标通常很有意义,因为您通常试图证明您构建的模型不仅适用于您的数据,而且适用于您投入的任何数据集。
那么为什么泛化会成为一个问题呢?
它基本上归结为平均问题。通过要求广泛的概括性,我们现在需要在数据中找到在所有情况和上下文中提供信息的预测特征。随着越来越多的数据用于训练以使其在各种环境中正常工作,具有高度预测性但仅在某些设置中的功能将被“淘汰”。许多小组(例如,[1])已经证明了这一点,我们在我自己的研究小组中看到了一个版本,我们有一个在全国范围内运作良好的模型,但对我们自己的机构做出了糟糕的预测。
最后,您将一个在一个环境中运行良好的模型转变为一个在许多环境中都“正常”工作的模型。
增加这个问题的是,在大多数医学或 ML 期刊上发布这些模型需要您证明您的模型具有泛化性。这也适用于此类系统的临床试验。因此,有助于增强我们对模型的信心的审查系统本身就有助于维持一个抑制任何特定站点更高性能的过程。
这个问题引起关注的速度很慢,但这种情况正在发生变化,部分原因是人们普遍对临床中一些高调模型的实际表现不满意。 Futoma 及其同事在 2020 年发表的一篇非常好的文章描述了一些问题,值得一看。 [2]泛化也是 AI 模型偏差背后问题的一部分,因此这些问题不会很快消失。
可以做什么?
理想情况下,如果我们能够制作出非常好的泛化模型,无论在哪里使用都能做出高度准确的预测,那就太好了。这在输入数据本身有限且受高度控制的情况下是可以实现的。从 X 射线图像中诊断乳房 X 射线照片是一种可能。但是对于预测模型可以帮助临床决策制定的更广泛的实例,这可能不容易实现。
在找到解决这个问题的方法之前,从一开始就设计模型以进行剪裁似乎是一条很好的前进道路。使用迁移学习来调整或更新模型以适应特定的临床环境是一种方法。 [1]
医疗保健系统级别的流程也必须到位以进行维护,因为患者群体、医院流程甚至临床人员会随着时间的推移而发生变化,这些变化将导致这些方法的准确性开始下降。
最直接的是,在这些模型的审查和验证中允许更大的灵活性,重点是提供更多的透明度,以了解模型在什么条件下会表现良好或不会产生巨大的好处。
作为一个自私的病人,我想要最好的模型。我不希望它为我和全国各地医院的患者做出“还可以”的预测或诊断。我想要一个能够帮助正在照顾我的临床医生做出可能的最佳决定的模型。放弃对泛化的假定需求将有助于 AI 转变为真正的精准医疗工具,并兑现改善患者预后的承诺。
注释和参考
[1] 杨 J,Soltan AAS,克利夫顿 DA。 2022.机器学习跨医疗机构的普遍性:来自多站点 COVID-19 筛查的见解。 NPJ数字医学 5:69。 (开放获取——对公众免费)
[2] Futoma J、Simons M、Panch T、Doshi-Velez F、Celi LA。 2020. 医疗保健中临床研究和机器学习的普遍性神话。 柳叶刀。数字健康 2:e489-e492。 (开放获取——对公众免费)。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明