微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 PySpark 进行大规模密度估计

如何解决使用 PySpark 进行大规模密度估计

我们有一个密度估计需求(最终目标是进行异常检测),过去我们使用纯 python 来处理带有 scipy 的小型数据集,其方法类似于 whats。描述如下:Fitting empirical distribution to theoretical ones with Scipy (Python)?,这适用于小型数据集,但是现在我们需要为 5000 多个变量执行此操作,每个变量有数千个样本,我们正在寻找利用我们的 spark 集群来扩展它的方法,spark有 pyspark.mllib.stat.KernelDensity 但我找不到任何示例说明如何将它用于不是一种而是多种密度估计情况,而不需要一个循环来迭代和计算每个变量的一个密度。

我的问题是,我们如何做以下任何一种选择:

  1. 在 Spark 集群内以分布式/并行方式运行基于 scipy.stats 的方法
  2. 使用 pyspark.mllib.stat.KernelDensity 并行运行多个密度估计

在这两种情况中的任何一种情况下,目标都是利用并行性,而无需为循环内的每个变量顺序运行密度估计。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。