使用自动编码器抑制异常检测中的误报错误分类为异常值/异常

如何解决使用自动编码器抑制异常检测中的误报错误分类为异常值/异常

如何抑制异常检测中的某些异常值？

我们使用自动编码器构建了一个模型，该模型已检测到异常。某些标记为异常（在正态分布之外）的数据点实际上并不是异常。

我们如何训练模型将其识别为异常？

我们是否将这些数据点的多个重复项添加到数据集中，然后再次进行训练，或者是否可以在此处应用任何其他技术？

在这里，正态分布是余弦相似度（距离），因为数据点是文本数据（日志条目）的矢量化表示。因此，如果输入向量与重构向量之间的余弦距离不属于正态分布，则将其视为异常。

解决方法

由于异常检测器通常是在没有监督的情况下进行训练的，因此很难在不失去异常检测特性的情况下将标签直接并入该过程中。一种简单的替代方法是将标记为异常的实例放入一个分类器中，该分类器将分类为“真实异常”与“非真实异常”。该分类器将在已标记的先前异常上进行训练。它可以是二进制分类，也可以是已知“非真实”样本的一类。一个简单的起点是k最近邻或特定领域的距离函数。分类器可以使用潜在特征向量作为输入，也可以进行自身的特征提取。

Anomaly Detection with False Positive Suppression (relayr.io)中描述了这种系统。本文使用相同的基本思想来最大程度地降低误报率： SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-negative Rate with Ensured True-positive Rate