微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在数据框中的组内查找异常值

如何解决如何在数据框中的组内查找异常值

我有一个如下所示的 df:

组。 得分。
红色 34
蓝色 42
绿色 1000
绿色 34
蓝色 34
红色 42

我想在其上添加一列,指定该值是否为异常值。如果没有组,那么我会使用类似的东西:

df['outliers'] = df[df[col] > df[col].mean() + 3 * df[col].std()]

但是我怎么做才能让它在组内?

解决方法

您可以使用GroupBy.transform

df["is_outlier"] = df.groupby("Group.").transform(lambda x: (x - x.mean()).abs() > 3*x.std())

在每个组中,我们取元素与组均值的距离,看其绝对值是否超过该组标准的 3 倍。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。