代码改变世界

MIMIC-III Clinical Database 翻译

2019-12-02 10:08  JohnRain  阅读(1624)  评论(0编辑  收藏  举报

MIMIC-III Clinical Database

原文地址
Alistair Johnson , Tom Pollard , Roger Mark
Published: Sept. 4, 2016. Version: 1.4

在云平台上使用 MIMIC-III (2019.09.30 14:28)

MIMIC-III数据库现在可以在两个主要的云平台上使用:谷歌云平台(GCP)和Amazon Web Services (AWS)。要访问云上的数据,只需将相关的云标识符添加到您的物理网络配置文件中即可。更多的说明可以在MIMIC-III website上找到。

使用教程: MIMIC-III with BigQuery (GCP) , MIMIC-III with Athena (AWS)

引用要求

When using this resource, please cite:
Johnson, A., Pollard, T., Mark, R. (2016). MIMIC-III Clinical Database. PhysioNet. doi:10.13026/C2XW26

Additionally, please cite the original publication:
Johnson, A. E. W., Pollard, T. J., Shen, L., Lehman, L. H., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Celi, L. A., & Mark, R. G. (2016). MIMIC-III, a freely accessible critical care database. Scientific Data, 3, 160035.

Please include the standard citation for PhysioNet:
Goldberger AL, Amaral LAN, Glass L, Hausdorff JM, Ivanov PCh, Mark RG, Mietus JE, Moody GB, Peng C-K, Stanley HE. PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals (2003). Circulation. 101(23):e215-e220.

数据集概述

MIMIC-III 是一个大型的、可自由获取的数据库,包括2001年至2012年间贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)重症监护病房4万多名患者的健康相关数据。
该数据库包括人口统计数据、在床边进行的生命体征测量(每小时约1个数据点)、实验室检测结果、程序、药物、护理人员记录、影像报告和死亡率(包括出院后)等信息。

MIMIC支持多种分析研究,包括流行病学、临床决策规则改进和电子工具开发, 该数据集有三个特点:

  • 全世界的研究人员都可以免费获得
  • 它包含了一个多样化和非常大的ICU患者群体
  • 它包含高度粒度的数据,包括实验室结果、生命体征、药物等

背景

  1. 近年来,有一个协调一致的行动,在医院采用数字健康记录系统。以美国为例,在2008年至2014年的7年间,拥有基本数字系统的非联邦急症护理医院数量从9.4%增至75.5%。[1]
  2. 尽管有了这些进展,数字系统的互操作性仍然是一个开放的问题,导致了数据集成方面的挑战。因此,医院数据在理解和改善护理方面的潜力尚未完全实现。与此同时,科学界也因为研究的可重复性不足而受到越来越多的批评。[2]

方法

MIMIC-III整合贝斯以色列女执事医疗中心(位于美国马萨诸塞州波士顿市)的病人的临床资料,使国际上的研究人员可以根据数据使用协议广泛获取这些资料。数据的开放性使临床研究得以复制和改进,否则是不可能的。
MIMIC-III数据库填充了在常规医院护理期间获得的数据,因此对护理人员没有相关的负担,也不会干扰他们的工作流程。数据从几个来源下载,包括:

  • 来自重症监护信息系统的档案。
  • 医院电子健康档案数据库。
  • 社会保障局死亡主文件。

在数据收集期间,有两个不同的危重症信息系统:Philips CareVue临床信息系统(型号M2331A和M1215A;飞利浦医疗,Andover, MA)和iMDsoft MetaVision ICU (iMDsoft, Needham, MA)。这些系统是临床数据的来源,如:

  • 有时间标记的护士验证的生理测量(例如,每小时记录的心率、动脉血压或呼吸频率);
  • 护理人员的护理进展记录;
  • 持续静脉滴注药物和液体平衡。
    除了与液体摄入有关的数据(CareVue和MetaVision系统之间在结构上存在显著差异)之外,在构建数据库表时对数据进行了合并。不能合并的数据用后缀表示数据源。例如,使用护理系统监控的患者的输入存储在INPUTEVENTS_CV中,而使用Metavision系统监控的患者的输入存储在INPUTEVENTS_MV中。从医院和实验室健康记录系统收集的其他信息包括:
  • 病人统计资料和住院死亡率。
  • 实验室测试结果(例如,血液学、化学和微生物学结果)。
  • 出院总结和心电图及影像学研究报告。
  • 与计费相关的信息,如国际疾病分类、第9版(ICD-9)规范、诊断相关组(DRG)规范和当前程序术语(CPT)规范。
  • 使用社会保障局死亡主文件获得院外死亡日期。
    在数据被纳入MIMIC-III数据库之前,它首先根据《健康保险可移植性与责任法案》(HIPAA)标准使用结构化数据清理和数据转移进行身份验证。结构化数据的识别过程需要删除HIPAA中列出的所有18个识别数据元素,包括患者姓名、电话号码、地址和日期等字段。特别是,通过对每个病人以一致的方式进行随机偏移以保留时间间隔,将日期移至未来,结果在2100年至2200年之间的某个时间点发生停留。日时、周时和近似的季节性在日期转换中被保留。89岁以上患者的出生日期被更改,以掩盖他们的真实年龄,并符合HIPAA规定:这些患者在数据库中出现的年龄超过300岁。
    受保护的健康信息被从免费的文本字段中删除,比如诊断报告和医生笔记,使用基于广泛的字典查询和正则表达式模式匹配的严格评估的鉴定系统。随着新数据的获取,该识别系统的组成部分不断扩展。
    该项目由贝斯以色列女执事医疗中心(波士顿,马萨诸塞州)和麻省理工学院(剑桥,马萨诸塞州)的机构审查委员会批准。由于该项目不影响临床护理,且所有受保护的健康信息已被识别,因此病人个人同意的要求被放弃。

数据描述 (重要)

MIMIC-III是一个由26个表组成的关系数据库。表由通常以“ID”为后缀的标识符连接。例如,
SUBJECT_ID指的是唯一的病人,
HADM_ID指的是唯一的入院到医院,
而ICUSTAY_ID指的是唯一的入院到重症监护病房。

图表记录的事件,如笔记、实验室测试和流体平衡,被存储在一系列的“事件”表中。例如,OUTPUTEVENTS表包含与给定病人的输出相关的所有度量,而LABEVENTS表包含病人的实验室测试结果。

以'D_'为前缀的表是字典表,提供了标识符的定义。例如,CHARTEVENTS的每一行都与单个ITEMID相关联,ITEMID表示测量的概念,但是它不包含测量的实际名称。通过连接ITEMID上的CHARTEVENTS和D_ITEMS,可以识别由给定ITEMID表示的概念。

开发MIMIC数据模型涉及到在解释的简单性和接近事实之间取得平衡。因此,模型是底层数据源的反映,根据模拟数据库的迭代修改以响应用户的反馈。在进行转换时,要小心避免对底层数据做出假设,所以MIMIC-III紧密地代表了原始的医院数据。

一般来说,有5个表用于定义和跟踪病人的住院时间: ADMISSIONS; PATIENTS; ICUSTAYS; SERVICES; and TRANSFERS
另外5个表是针对各自定义的交叉引用代码的字典: D_CPT; D_ICD_DIAGNOSES; D_ICD_PROCEDURES; D_ITEMS; and D_LABITEMS。
其余的表包含与患者护理相关的数据,如生理测量、护理人员观察和账单信息。

在某些情况下,可以合并表—例如,D_ICD_PROCEDURES和CPTEVENTS表都包含与过程相关的详细信息,并且可以合并—但是,为了清晰起见,我们的方法是保持表独立,因为数据源有很大的不同。我们建议研究人员开发适当的数据库视图和转换,而不是在MIMIC数据模型中组合表。

使用注意事项

MIMIC-III作为逗号分隔值(CSV)文件的集合提供,以及帮助将数据导入数据库系统(包括PostreSQL、MySQL和MonetDB)的脚本。由于该数据库包含有关患者临床护理的详细信息,因此必须以适当的护理和尊重对待它。研究人员需要通过MIMIC website上记录的流程正式请求访问。在授予访问权限之前,必须完成两个关键步骤:

  • 研究人员必须完成一个公认的保护人类研究参与者的课程,其中包括健康保险可携性和责任法案(HIPAA)的要求。
  • 研究人员必须签署一份数据使用协议,该协议概述了适当的数据使用和安全标准,并禁止识别个别患者。
    批准至少需要一周时间。一旦申请被批准,研究人员将收到包含从PhysioNetWorks下载数据库指令的电子邮件。