处理医学时间序列中缺失数据的3种方法
这些方法都是专为RNN设计,它们都经过了广泛的学术评估,而且十分的简单
大量医疗数据例如心电图、体温监测、血压监测、定期护士检查等等本质上都是时间序列数据。在这些医学图表的趋势、模式、高峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗时间序列数据进行有效分析,这被认为是提高医疗质量、优化资源利用率、降低整体医疗成本的关键。
一种有前途的医学时间序列分析形式是通过RNN来实现。RNN 因其建模能力和可以处理可变长度输入序列的能力而受到医学研究人员的欢迎。研究人员通常将时间序列数据划分为均匀的时间步长,例如 1 小时或 1 天。一个时间步长内的所有数据点将通过平均或其他聚合方案聚合。这种处理方式有两个优点。首先,它减少了时间序列数据序列的长度。其次,原始原始数据点通常在时间上间隔并不规则,这种方式可以对时间上下文进行归一化。在这个预处理步骤之后,数据几乎可以用于 RNN 处理。但是有一个非常现实的问题:如果在给定的时间步长内没有数据怎么办?
上述问题在医疗环境中很重要,因为丢失的医疗数据通常不是随机丢失的。数据本身的缺失具有临床意义。例如,医院工作人员可能会停止测量被认为已经稳定的患者的体温。或者也许患者的情况需要另一种不同类型的测量来取代以前的测量方法。因此,通常的零填充或插补方法往往会产生次优性能。
在这篇文章,我们将回顾 3 种简单的方法来处理与 RNN 一起使用的时间序列研究中缺失的医学数据。后一种方法都是建立在前一种方法的基础上,具有更高的复杂性。因此强烈建议按照它们出现的顺序阅读。
简单缺失编码
假设每个时间步的输入变量是 x 并带有下标 t。变量有 d 维,用上标 d 表示。输入的示例如下图1 (a)所示,简化为d=1。阴影部分是缺失的数据,我们应用前向插补来填充它们最近的观测值。前向插补是可行的因为一旦医院工作人员认为某个指标稳定后,他们通常会停止对指标进行进一步测量,在这种情况下,最近观察到的值可以作为未来的实际值。
这篇论文(arxiv:1606.04130)提出的简单缺失编码方法表明,应该明确编码给定数据点实际上是估算的而不是实际观察到的值。这种显式编码为RNN提供了一个信号,可以让RNN注意到数据的缺失。如图1 (b)所示,其中m表示x的缺失,其中1表示存在,0表示不存在(如公式1所定义)。输入是x和m的拼接。。
确认值是否缺失的公式
完整文章:
https://avoid.overfit.cn/post/aefbb6103beb41b3a677ee2b24d13913