如何解决两个样本相等:我可以保存分布统计并加载它们以与新数据进行比较吗
我想在训练集和测试集之间进行一些统计比较,更具体地说是比较特征之间分布的相似性。让我们假设我们使用两样本 Kolmogorov-sminov 检验来做到这一点。但是我想要执行这样的分析的方法是首先计算火车数据的统计部分,将其保存到磁盘,然后仅在新数据进入时调用它以将其与测试数据一起使用。所以我不想加载整个火车数据框来计算两样本分布相似性测试。这有可能吗?如果不是与 KS 测试,也许其他一些,说 kullback leibler 分歧。谢谢。
解决方法
嗯,这就是我的处理方式。我会从训练数据集构建 CDF。然后这个 CDF 将被存储在磁盘上,并在必要时调用
稍后我将运行 sample vs CDF K-S 测试,例如,使用 test 和可调用的 cdf(第二个参数)。
那个可调用的 CDF 应该是你从训练集中得到的那个。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。