微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

高变时间序列数据中的异常检测

如何解决高变时间序列数据中的异常检测

我正在尝试通过名为 count 的列检测异常情况。数据是时间序列数据,每天每 5 分钟出现一次。数据框如下所示:

datetime         |  count
_________________|________
2021-03-31 00:05 |  25
2021-03-31 00:10 |  13
2021-03-31 00:15 |  0
2021-03-31 00:20 |  3
...              | ...
2021-04-15 22:10 | 111
2021-04-15 22:15 | 0
2021-04-15 22:20 | 9

但是,count 列上的差异很大,因此当我尝试使用窗口为 288 的滚动 z 得分技术时(每 5 分钟,意味着一个数据点中有 12 个数据点)小时,24*12 = 288,1 天窗口)和 -3,+3 的阈值,根据中心极限定理,它失败了,因为对于大多数数据点,分数远远超出这些范围,因此大约 50 % 点被宣布为异常。同样,我已经尝试过隔离森林、一类 SVM 和椭圆包络技术,但似乎没有任何效果。当我尝试绘制异常点时,图表中充满了异常点,并且该图也没有任何意义。

我之前没有处理过这种数据,我想我在某处出错了。谁能建议我应该采取哪些步骤来检测此类数据中的异常情况,以及我可以尝试哪些好的算法?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。