微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用自动编码器抑制异常检测中的误报错误分类为异常值/异常

如何解决使用自动编码器抑制异常检测中的误报错误分类为异常值/异常

如何抑制异常检测中的某些异常值?

我们使用自动编码器构建了一个模型,该模型已检测到异常。 某些标记为异常(在正态分布之外)的数据点实际上并不是异常。

我们如何训练模型将其识别为异常?

我们是否将这些数据点的多个重复项添加到数据集中,然后再次进行训练,或者是否可以在此处应用任何其他技术?

在这里,正态分布是余弦相似度(距离),因为数据点是文本数据(日志条目)的矢量化表示。因此,如果输入向量与重构向量之间的余弦距离不属于正态分布,则将其视为异常。

解决方法

由于异常检测器通常是在没有监督的情况下进行训练的,因此很难在不失去异常检测特性的情况下将标签直接并入该过程中。 一种简单的替代方法是将标记为异常的实例放入一个分类器中,该分类器将分类为“真实异常”与“非真实异常”。该分类器将在已标记的先前异常上进行训练。它可以是二进制分类,也可以是已知“非真实”样本的一类。一个简单的起点是k最近邻或特定领域的距离函数。分类器可以使用潜在特征向量作为输入,也可以进行自身的特征提取。

Anomaly Detection with False Positive Suppression (relayr.io)中描述了这种系统。 本文使用相同的基本思想来最大程度地降低误报率: SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-negative Rate with Ensured True-positive Rate

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。