技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

不平衡的多类分类数据集：欠采样还是过采样？

时间：2022-05-01分类：编程问答

如何解决不平衡的多类分类数据集：欠采样还是过采样？

Dataset 大约有 150k 条记录，有四个标签：['A','B','C','D']，分布如下：
答：60000
乙：50000
C: 36000
D: 4000

我注意到使用包分类报告来获取精度、召回率和 f1 分数，f1 分数导致 UndefinedMetricWarning，因为 D 类由于记录数量少而未被预测。

我知道我需要执行过采样/欠采样来修复不平衡的数据。

问题：修复不平衡数据但从每个类中随机抽取 4000 条记录以使其平衡是个好主意吗？

解决方法

我认为您想从 D 类中进行过采样。该技术称为合成少数过采样技术，或 SMOTE。

解决此问题的一种方法是对少数类中的示例进行过采样。这可以通过在拟合模型之前简单地从训练数据集中的少数类中复制示例来实现。这可以平衡类分布，但不会为模型提供任何额外信息。

复制来自少数类的例子的一个改进是合成来自少数类的新例子。这是表格数据的一种数据增强，非常有效。

来源：https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Caldav 发现从 iOS 到 caldav 服务下一篇：将多个对象添加到对象

相关推荐

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其他元素将获得点击?

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。）

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么？

这是用Java进行XML解析的最佳库

这是用Java进行XML解析的最佳库。

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构为什么？

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么？

如何在Java中聆听按键时移动图像

如何在Java中聆听按键时移动图像。

Java“Program to an interface”这是什么意思？

Java“Program to an interface”。这是什么意思？

小编推荐

苹果市值2025年有望达4万亿美元