微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

决策树不平衡数据:一片叶子中的数据高度集中

如何解决决策树不平衡数据:一片叶子中的数据高度集中

我使用一个简单的决策树进行分类。该数据集是一个具有 30k 行的不平衡数据集。 使用的包:sklearn。

我使用 predict_probab 函数,然后绘制决策树。该模型有 8 个叶子(尝试了预剪枝和剪枝后)。 50% 的数据被分成 7 个叶子,而剩下的 50% 最终变成了一个叶子。有没有办法瞄准这片叶子并进一步分支它。

我的尝试

我将位于单个叶子中的 50% 数据集分离出来,并为其单独创建了一个规则。但是,我想知道这种方法是否有意义。如果是,有没有办法结合规则。

谢谢

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。