如何解决过采样和欠采样方法是否有助于构建好的模型?
我刚刚研究了来自 kaggle ( https://www.kaggle.com/andrewmvd/heart-failure-clinical-data ) 的“心力衰竭预测”数据集
我注意到“未死”的数量比“死”的数量多,所以我使用了 SMOTetomek,它重新采样了我的数据,我预测了准确性并打印了混淆矩阵,这在之前的结果非常好。
df.DEATH_EVENT.value_counts()
0 202
1 95
Name: DEATH_EVENT,dtype: int64
准确率和混淆矩阵:之前
0.7888888888888889
[[130 30]
[ 8 12]]
转换代码:
smt = SMOTetomek(random_state=42)
X_res,y_res = smt.fit_resample(X,y)
pd.DataFrame(y_res)['DEATH_EVENT'].value_counts()
1 155
0 155
Name: DEATH_EVENT,dtype: int64
准确率和混淆矩阵:之后
0.912
[[53 5]
[ 6 61]]
但这是一个小样本。
根据您的经验,使用过采样或欠采样方法通常会带来更好的结果吗?或者我们是否会因此得到某种错误的结果,而我们的模型在现实世界中的表现不会那么好?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。