如何解决高变时间序列数据中的异常检测
我正在尝试通过名为 count 的列检测异常情况。数据是时间序列数据,每天每 5 分钟出现一次。数据框如下所示:
datetime | count
_________________|________
2021-03-31 00:05 | 25
2021-03-31 00:10 | 13
2021-03-31 00:15 | 0
2021-03-31 00:20 | 3
... | ...
2021-04-15 22:10 | 111
2021-04-15 22:15 | 0
2021-04-15 22:20 | 9
但是,count
列上的差异很大,因此当我尝试使用窗口为 288 的滚动 z 得分技术时(每 5 分钟,意味着一个数据点中有 12 个数据点)小时,24*12 = 288,1 天窗口)和 -3,+3 的阈值,根据中心极限定理,它失败了,因为对于大多数数据点,分数远远超出这些范围,因此大约 50 % 点被宣布为异常。同样,我已经尝试过隔离森林、一类 SVM 和椭圆包络技术,但似乎没有任何效果。当我尝试绘制异常点时,图表中充满了异常点,并且该图也没有任何意义。
我之前没有处理过这种数据,我想我在某处出错了。谁能建议我应该采取哪些步骤来检测此类数据中的异常情况,以及我可以尝试哪些好的算法?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。