微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

过采样和欠采样方法是否有助于构建好的模型?

如何解决过采样和欠采样方法是否有助于构建好的模型?

我刚刚研究了来自 kaggle ( https://www.kaggle.com/andrewmvd/heart-failure-clinical-data ) 的“心力衰竭预测”数据集

我注意到“未死”的数量比“死”的数量多,所以我使用了 SMOTetomek,它重新采样了我的数据,我预测了准确性并打印了混淆矩阵,这在之前的结果非常好。

df.DEATH_EVENT.value_counts()

0    202
1     95
Name: DEATH_EVENT,dtype: int64

准确率和混淆矩阵:之前

0.7888888888888889
[[130  30]
[  8  12]]

转换代码

smt = SMOTetomek(random_state=42)
X_res,y_res = smt.fit_resample(X,y)
pd.DataFrame(y_res)['DEATH_EVENT'].value_counts()

1    155
0    155
Name: DEATH_EVENT,dtype: int64

准确率和混淆矩阵:之后

0.912
[[53  5]
[ 6 61]]

但这是一个小样本。

根据您的经验,使用过采样或欠采样方法通常会带来更好的结果吗?或者我们是否会因此得到某种错误的结果,而我们的模型在现实世界中的表现不会那么好?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。