微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

相对于基础数据集的 PDF 缩放分类器中的 bin 大小

如何解决相对于基础数据集的 PDF 缩放分类器中的 bin 大小

我正在尝试寻找解决以下问题的最佳方法:我正在处理一个大型数据集,我想在其上运行 Python 分类器。 我的第一个想法是根据数据和我想要的类数创建类,所以只需找到数据的最大值并将其除以类数 n。问题是,最大值通常是异常值。这样,我在主数据集群和一些接近最大值的类中得到了糟糕的分辨率,这些类几乎没有成员或根本没有成员。

我有两个想法来解决这个问题:

  1. 相对于基础数据集的概率密度来缩放 bin 大小。换句话说:在聚集最多数据的地方缩小 bin 的大小,在离群值所在的地方放大。

  2. 使用数据的平均值和两个方向的固定数量的标准偏差来基本上创建“相对箱”,例如“远低于平均值”(avg-2xsigma),“略低于平均值”(avg -sigma)、“平均值”、“远高于平均值”等

我现在的问题是:想法 1. 是否是一种已知的分类分箱程序?是否有以这种方式加权班级规模的已知程序?还是我应该只使用方法 2?我觉得这是一种相当懒惰的方法,因为它仍然使用相同的 bin 大小,并且在创建 bin 大小时不太灵活。

如果你能给我一些关于这个问题的意见,也许有人对这个问题感兴趣,那就太酷了。欢迎任何头脑风暴!

最好的, 纳布

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。