微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

分类器的数据集必须完美平衡吗?

如何解决分类器的数据集必须完美平衡吗?

在机器学习中,通常认为二元分类器的数据集必须是平衡的:EG。 1 级 50%,0 级 50%。 我的问题是:数据集是否完美平衡(50/50)?我有一个包含 1568 个观察值的数据集:第 1 类是 47%,第 0 类是 53%。这会产生问题吗?

解决方法

理想情况下,每个类别都有 50% 的类别,这将在训练模型时获得不错的结果,因为该模型正在寻求优化准确性。

例如,假设您有 99% 的类别 0 和 1% 的类别 1。在训练时,您将获得一个始终分类为 0 的模型,这样做,该模型将获得 99% 的一般准确率,但是这是你想要的吗?平衡这些数据将帮助您避免这种“愚蠢”的模型。这是一种极端情况,但这就是使用平衡类的原因。

平衡时注意与少数类的过度拟合,因此模型将学习多次对同一样本进行分类。

最后,如果您使用的是像您所说的那样平衡的数据,(47%,53%) 不需要平衡。可能你可以开始平衡 35% / 65% 或类似的东西。显然,有平衡的数据的行为取决于数据集。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。