论人工智能技术在医疗保健中的谨慎采用

近年来，华而不实的头条新闻经常宣称医疗保健正在“被颠覆”，无论是亚马逊和谷歌进入医疗保健领域，还是像 Capsule、GoodRx、23andMe 这样的小型直接面向消费者的初创企业……不胜枚举.医疗保健行业占美国 GDP 的 19.7%，代表着巨大的机遇——尤其是在技术和数据领域。

作为传统大型科技公司如何逐渐进入医疗保健领域的一个例子，通常没有消费者真正注意到，这些都是其中的一些亮点。 2018 年，亚马逊以 7.53 亿美元收购了 PillPack，这是一家允许用户购买预制剂量药物的在线药店，从而首次涉足医疗保健领域；这最终成为新创建的亚马逊药房的一部分。 [1] 2019 年，亚马逊与 Care Medical 合作推出了 Amazon Care，最初是为西雅图地区及周边地区的亚马逊员工提供面对面和虚拟医疗保健服务。 [2] 2021 年，AWS 宣布推出 Amazon HealthLake，这是一项符合 HIPAA 要求的服务，供医疗保健组织进行数据分析。在预览期间，拉什大学医学中心使用 HealthLake 来解决其 COVID-19 响应中的健康不公平问题，而 CureMatch 则使用它为肿瘤学家提供临床决策支持，以进行个性化的癌症治疗。 [3] 最近，在 2022 年 7 月，亚马逊以近 40 亿美元收购了全国初级保健诊所连锁店 One Medical，提供了 15 年的医疗系统数据，成为头条新闻。 [4]

尽管大大小小的科技公司在获取健康数据方面不断取得进步，但所有这些数据可以用来做什么？在近年来的每篇“顶级医疗技术趋势”文章中，人工智能 (AI)、机器学习 (ML) 和大数据的使用一直是排行榜的榜首。 [5] [6] 很容易看出原因——AI/ML 已被用于通过乳房 X 线照片和组织病理学分析来诊断乳腺癌， [7] 从潜在的恶性痣中识别良性皮肤痣， [8] [9] 改善癌症放射治疗的器官追踪， [10] 以及更多。事实上，它是如此成功，以至于像 Geoffrey Hinton 这样杰出的计算机科学家相信放射科医生很快就会失业：“我认为，如果你是一名放射科医生，你就像漫画中的 Wile E. Coyote。你已经在悬崖边上，但你还没有往下看。没有底线……很明显，五年后深度学习将比放射科医生做得更好。”

Image source: [11]

作为一名渴望在几个月内获得医学博士学位的医学生，我对这一趋势特别感兴趣——不仅从工作保障的角度来看，而且从道德、法律和社会的角度来看。虽然这些创新肯定令人兴奋，并且具有改善和挽救生命的巨大潜力，但我认为与其他行业相比，人工智能/机器学习技术在医疗保健领域的采用应该更加缓慢和谨慎。我关于在医疗保健领域谨慎投资和采用 AI/ML 技术的论点基于三个主要领域：AI/ML 在现实临床实践中的不确定性，AI/ML 作为“黑匣子”的医学法律影响，没有解释力，以及 AI/ML 在医疗保健中的伦理。

实际临床实践中的 AI/ML：它能否准确、一致和公正？

许多关于医疗保健中“成功”的 AI/ML 用例的论文已经发表，但事实证明，在实际临床环境中的使用可能会描绘出不同的画面。 Coursera 创始人 Andrew Ng 在接受采访时表示，“我们这些机器学习领域的人非常擅长在测试集上做得很好，但不幸的是，部署一个系统所需要的不仅仅是在测试集上做得好……当我们从斯坦福医院收集数据时，然后我们对来自同一家医院的数据进行训练和测试，事实上，我们可以发表论文，表明 [算法] 在发现某些情况方面与人类放射科医生相当。事实证明，当你把同样的模型、同样的人工智能系统带到街上的一家老医院，使用一台旧机器，而技术人员使用稍微不同的成像协议时，数据会漂移导致人工智能的性能系统显着退化。相比之下，任何人类放射科医生都可以沿着街道走到老医院，并且做得很好。因此，即使在某个时间点，在特定数据集上，我们可以展示这项工作，但临床现实是，这些模型仍需要大量工作才能投入生产......所有人工智能，不仅仅是医疗保健，都有证明概念到生产的差距。”美国放射学会的调查回应了对一致性和偏见的担忧，报告称“绝大多数 FDA 批准的算法尚未在大量站点上得到验证，这增加了患者和设备偏见可能导致性能不一致的可能性。” [12]

有许多智能手机应用程序可以扫描皮肤痣并声称可以识别那些可能是恶性的，例如 SkinVision [13] 或斯堪诺玛。 [14] 鉴于皮肤癌是美国最常见的癌症类型，早期发现可以对患者的结果产生巨大影响，因此人工智能/机器学习识别皮肤病变模式的潜在用途令人难以置信。然而，由纪念斯隆凯特琳癌症中心监督的一组皮肤科医生最近发表的一项研究表明，平均而言，商业应用程序的准确率仅为 59%。研究小组发现，这些算法无法准确评估训练中未见的皮肤状况的真实临床场景；图像上的杂散头发或笔迹等简单缺陷也降低了准确性。 [15] [16] 鉴于现实世界中皮肤图像类型的数量近乎无限，似乎不可能为算法提供足够广泛的训练集以达到有意义的准确性。此外，还有偏见的考虑——在皮肤病学中，由于传统的医学培训图像主要集中在白皮肤上，因此皮肤非白的患者经常未被诊断出来。同样，在 2022 年开展的一项用于皮肤癌诊断的 AI 研究中，研究人员承认，这些算法在有色人种身上可能效果不佳。 [17]

这个例子展示了可扩展性是多么困难，因为现实世界的患者比训练集所能捕获的要多样化得多，而且 AI/ML 模型只能与输入的数据一样好。对于其他领域的大多数模型，通常可以接受更有限的训练数据集，因为它总是可以在以后扩展。然而，对于医疗应用，这些输出可能会影响人类的生活，我们可能永远不会拥有足够“完美”的数据集来包含异常值，例如超罕见的诊断或症状、来自地球各个角落的人，以及其他不完美的现实世界。

另一个例子是 Epic 电子健康记录 (EHR) 的败血症检测模型，一种逻辑回归模型——虽然不是专门针对 AI/ML，但它是基于 405,000 名患者就诊的数据开发和验证的预测分析。败血症是一种血液感染，是一种危及生命的紧急情况；早期发现和治疗与住院患者的较低死亡率相关，因此具有强大的预测能力很重要。 Epic 是最常见的 EHR 之一，占美国市场近 40% 的份额，因此这种内置工具具有产生深远影响的潜力。然而，密歇根大学医学院 2021 年的一项研究发现，在使用真实世界的回顾性数据时，该模型在 67% 的脓毒症患者中没有检测到脓毒症，并且经常发出误报。 [18] [19] 这些糟糕的现实世界结果凸显了在使用数据驱动模型进行临床决策时外部验证的重要性。鉴于 Epic 模型的专有性质，研究人员还对其不透明性提出了担忧。

AI/ML 作为“黑匣子”的医学法律影响

当我们作为人类观看一幅图像时，我们对它试图描绘的内容有一种天生的感觉——它可能被部分遮蔽、颠倒，或者只是一些潦草的圆圈和线条；它可能是棕色的、白色的、黑色的，甚至是红色的——我们仍然知道它代表了一只“狗”。使用 AI 算法，图像只是像素的集合，对软件没有任何内在意义。该算法通过显示带有标签“狗”的狗的许多不同图像（即人类知道代表狗的许多不同像素集合）进行训练，并且在接收到新图像时将寻找曲线拟合这些像素找到一个足够好的匹配并返回标签“狗”。该算法不知道真正的“狗”是什么，或者此外， 为什么 它是一只狗。如果我们问算法，“你为什么称它为狗？”，它无法解释——这就是 AI/ML 的“黑匣子”的本质。

2015 年，计算机科学家 Sebastian Thrun 受到自己母亲死于乳腺癌的启发，致力于开发用于乳腺癌诊断的 AI/ML。在教授机器时，他注意到了一些问题：“在一些图片中，黑色素瘤被标记为黄色圆盘。我们必须把它们剪掉——否则，我们可能会教计算机挑选出黄色圆盘作为癌症的迹象……这就是神经网络的奇怪之处——你无法分辨它们正在拾取什么。它们就像内部运作神秘的黑匣子。” Siddhartha Mukherjee 博士在回复中写道：“它究竟是如何确定病变是黑色素瘤的？我们不知道，它也不能告诉我们。”在同一次采访中，计算机科学家 Geoffrey Hinton 说：“深度学习系统没有任何解释力……深度学习系统变得越强大，它就会变得越不透明。随着更多的特征被提取，诊断变得越来越准确。然而，为什么这些特征是从数百万其他特征中提取出来的，仍然是一个无法回答的问题。” [20]

AI/ML 的这种“黑匣子”性质意味着没有审计线索：没有对可能导致错误的决策的解释，这与人类临床医生犯错时不同。在我们高度诉讼的社会中，如果软件做出不正确的预测或以其他方式造成不应有的伤害，是否会承担医疗法律责任？责任是落在使用软件的临床医生，还是软件系统的公司，还是原始软件的开发者？ [21] [22] 此外，鉴于这个“黑匣子”，你能在医学文献中报告 ML 的发现吗？如何评估和比较这些发现的准确性？ [23] 也许对于识别狗的图像或预测天气而言，能够窥视软件的内部工作原理以了解它如何得出某个结论并不重要，但在医疗保健领域，风险更高。

AI / ML在医疗保健中的伦理

这将我们引向伦理学的讨论。这些机器可以做出预测，但目前还没有一套标准来说明如何根据调查结果做出治疗决定。考虑中风诊断：根据症状出现后的时间对中风进行不同的治疗；如果在症状出现后 4.5 小时内诊断出急性缺血性中风，临床医生可以通过组织纤溶酶原激活剂 (tPA) 提供静脉溶栓，这与显着提高改善的机会有关。神经病学有句谚语“时间就是大脑”。在识别中风患者时，发现使用多个 MRI 特征的 ML 算法在关键的 4.5 小时时间窗口内比人类读数更敏感，这当然是令人信服的——但在这种情况下，每个人都没有正常定义的异常。我们目前的医学指南，我们是否将其视为急性缺血性卒中的明确诊断，从而提供 tPA？ [24] 我们必须考虑到 tPA 不是一种无成本或无风险的干预措施：它非常昂贵，并且存在 tPA 相关并发症的可能性，包括颅内出血，这可能是致命的。再一次，如果出现任何问题，我们无法打开“黑匣子”来解释诊断并遵循决策线索，而且我们作为临床医生目前还没有明确的机器引导决策指南。毕竟，将不得不推动 tPA 药物治疗的将是

有了这个信息时代的所有这些数据和决策权，我们也可能会考虑到 太多了 知识——导致潜在的不必要的活检和程序以及对患者心理健康的负面影响。可以想象通过 AI/ML 软件接受毁灭性诊断的创伤，可能会因此接受治疗或接受手术，然后发现它是不正确的。 Mukherjee 博士写道：“许多癌症注定是自限性的。我们和他们一起死，而不是他们。如果这样一个身临其境的诊断引擎导致数百万次不必要的活检怎么办？在医学上，有些情况下早期诊断可以挽救或延长生命。在某些情况下，您会担心得更久，但不会活得更久。很难知道你想知道多少。” [25]

另一个有问题的伦理领域是自动化自满的想法——随着人工智能/机器学习软件程序等技术的采用越来越多，临床医生将变得越来越依赖和自满，接受程序培训，可能会错过他们本来可以通过传统方法发现的东西. 2003 年的一项心电图 (EKG) 随机对照试验发现，计算机解释的存在显着影响了这些住院医师，因为住院医师的解释显着减少。在提供不正确的计算机解释与根本没有计算机解释时是准确的。 [26]

最后，在处理大量数据时，患者数据隐私始终存在风险。例如，人工智能/机器学习领域的公私合作导致了该领域最近的一些丑闻：2016 年，Alphabet Inc/谷歌拥有的 DeepMind 与英国的国家卫生服务 (NHS) 合作使用机器学习来管理急性肾损伤，导致批评患者数据是在“不适当的法律依据”下获得的。随后，Google Health 控制了 DeepMind 的应用程序，有效地将大量私人患者数据并入美国，这是一个不同的司法管辖区。 [27] [28] 目前，现有立法似乎不足以涵盖这些 AI/ML 数据隐私考虑。另一方面，严格的隐私法可能会导致无法收集足够的高质量患者数据来适当地训练 AI 模型；它构成了微妙的平衡。谷歌健康最近涉足皮肤病学人工智能，它使用了“去识别的数据，包括大约 65,000 张诊断皮肤状况的图像和病例数据、数百万张精选的皮肤关注图像和数千个健康皮肤的例子——所有这些都来自不同的人口统计数据”，以努力解决健康差距。谷歌发表了几篇经过同行评审的文章，证明他们的皮肤科医生助手 AI 模型在识别 26 种常见皮肤病方面与人类皮肤科医生一样好，希望他们的工具能够帮助临床医生在初级保健环境中更准确地诊断这些疾病。 [29]

展望未来

去年，FDA 发布了一份题为“基于 AI/ML 的软件作为医疗设备 (SaMD) 行动计划”的文件，确立了“良好的机器学习实践”，致力于开发量身定制的监管框架，并支持与消除算法相关的方法论偏见。 [30] 几个月前，FDA 发布了更具体的放射设备机器学习指南，主要集中在编纂定义、潜在错误来源以及产品提交和标签的要求。 [31] 此外，像健康人工智能联盟这样的组织，包括卫生系统、大学和谷歌和微软等大型科技公司，致力于建立人工智能的公私标准——尽管维护这些标准是自愿的。 [32] 这些肯定是朝着正确方向迈出的一步，但卫生系统不断证明，它们还没有准备好完全接受 AI/ML 及其全部影响。 [33] [34]

随着我们继续沿着这条激动人心的 AI/ML 创新之路前进，我们需要停下来考虑一下现实：医疗保健中的 AI/ML 可能不实用或不安全，除非它的使用被更恰当和彻底地编入临床医生法规、系统报销中, 和医疗法律政策。在那之前，我们应该对这个健康科技领域采取更加谨慎的态度。

[1] https://techcrunch.com/2018/06/28/amazon-buys-pillpack-an-online-pharmacy-that-was-rumored-to-be-talking-to-walmart/

[2] https://techcrunch.com/2019/09/24/amazon-care-healthcare-service/

[3] https://www.businesswire.com/news/home/20210715005761/en/AWS-Announces-General-Availability-of-Amazon-HealthLake

[4] https://www.nytimes.com/2022/07/22/business/dealbook/amazon-acquires-one-medical.html

[5] https://www.proclinical.com/blogs/2022-4/top-10-new-medical-technologies-2022

[6] https://mobidev.biz/blog/technology-trends-healthcare-digital-transformation

[7] https://www.sciencedirect.com/science/article/pii/S0960977619305648

[8] https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402

[9] https://www.fastcompany.com/90637506/google-ai-dermatologist

[10] https://www.mayo.edu/research/clinical-trials/cls-20511050?_ga=2.18316281.1178387720.1660162682-789090762.1659382439

[11] https://www.politico.com/news/2022/08/15/artificial-intelligence-health-care-00051828