用于时间序列异常检测的学生化残差( studentized residual)的理论和代码实现

异常检测是指数据科学中可帮助发现数据集中的异常值有用的技术。异常检测在处理时间序列数据时特别有用。例如时间序列数据来自传感器测量结果(例如压力和温度),由于设备故障和瞬态现象等问题包含许多异常点, 异常检测有助于消除这些点异常值,以优化时间序列数据中的信号。对于销量预测等需求异常点也可以表示为活动或者营销的记录,可以进行重点分析。

在这篇文章中,将介绍一个可用于检测异常值的简单但高效的算法,该算法来自论文(https://www.researchgate.net/publication/231046287_Measurement_of_free_surface_deformation_in_PIV_images)

时间序列异常检测算法

下图说明了可以在测量传感器的日常操作中观察到的时间序列数据的典型示例。橙色线表示基础信号,而蓝色峰表示可能由于测量读数中的尖峰而出现的异常点。在这种情况下,我们所需的异常检测工具的目的是通过删除那些异常点来简单地细化信号。

我们将点异常定义为与其预期值完全不同的任何点。在这篇文章中展示的算法是通过使用多项式回归和学生化残差( studentized residual也叫学生化删除的残差)来识别这些异常。

第一步是定义一条多项式曲线,为数据集的基础信号提供估计。

为了将这条曲线拟合到数据中,必须通过最小化某个损失函数来确定系数(直到 N 级)。通常损失函数可以定义为普通残差的最小化,其计算为实际值与其预测值之间的差异。

完整文章:

https://www.overfit.cn/post/7dba63d4464c4e8f8881331457541e29

posted @ 2022-04-02 10:05  deephub  阅读(123)  评论(0编辑  收藏  举报