用于时间序列异常检测的学生化残差( studentized residual)的理论和代码实现
异常检测是指数据科学中可帮助发现数据集中的异常值有用的技术。异常检测在处理时间序列数据时特别有用。例如时间序列数据来自传感器测量结果(例如压力和温度),由于设备故障和瞬态现象等问题包含许多异常点, 异常检测有助于消除这些点异常值,以优化时间序列数据中的信号。对于销量预测等需求异常点也可以表示为活动或者营销的记录,可以进行重点分析。
在这篇文章中,将介绍一个可用于检测异常值的简单但高效的算法,该算法来自论文(https://www.researchgate.net/publication/231046287_Measurement_of_free_surface_deformation_in_PIV_images)
时间序列异常检测算法
下图说明了可以在测量传感器的日常操作中观察到的时间序列数据的典型示例。橙色线表示基础信号,而蓝色峰表示可能由于测量读数中的尖峰而出现的异常点。在这种情况下,我们所需的异常检测工具的目的是通过删除那些异常点来简单地细化信号。
我们将点异常定义为与其预期值完全不同的任何点。在这篇文章中展示的算法是通过使用多项式回归和学生化残差( studentized residual也叫学生化删除的残差)来识别这些异常。
第一步是定义一条多项式曲线,为数据集的基础信号提供估计。
为了将这条曲线拟合到数据中,必须通过最小化某个损失函数来确定系数(直到 N 级)。通常损失函数可以定义为普通残差的最小化,其计算为实际值与其预测值之间的差异。
完整文章:
https://www.overfit.cn/post/7dba63d4464c4e8f8881331457541e29
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2020-04-02 解决过拟合:如何在PyTorch中使用标签平滑正则化