微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

重新采样后的低性能指标

如何解决重新采样后的低性能指标

我有一个不平衡的数据。 66k:0 和 1k:1。我在我的训练集上尝试了随机过采样、SMOTE 以及 SMOTE 和欠采样的混合方法。以下是我使用随机森林分类器针对不同策略的分类报告:

训练集(无重采样):

Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
 [259   0]]

对于过采样策略:

Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
 [259   0]]

对于 SMOTE:

Accuracy:0.77
f1 score: 0.06
precision: 0.03
recall: 0.48
AUC: 0.70
Confusion matrix:
[[13685 4082]
 [134   125 ]]

而且,对于采样不足的 SMOTE

Accuracy:0.93
f1 score: 0.06
precision: 0.04
recall: 0.17
AUC: 0.69
Confusion matrix:
[[16714 1053]
 [215   44  ]]

我不知道还能做些什么来改进模型。它们似乎都是可怕的指标。我开始认为特征数据是垃圾。你有什么建议?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。