使用 PySpark 进行大规模密度估计

如何解决使用 PySpark 进行大规模密度估计

我们有一个密度估计需求（最终目标是进行异常检测），过去我们使用纯 python 来处理带有 scipy 的小型数据集，其方法类似于 whats。描述如下：Fitting empirical distribution to theoretical ones with Scipy (Python)?，这适用于小型数据集，但是现在我们需要为 5000 多个变量执行此操作，每个变量有数千个样本，我们正在寻找利用我们的 spark 集群来扩展它的方法，spark有 pyspark.mllib.stat.KernelDensity 但我找不到任何示例说明如何将它用于不是一种而是多种密度估计情况，而不需要一个循环来迭代和计算每个变量的一个密度。

我的问题是，我们如何做以下任何一种选择：

在 Spark 集群内以分布式/并行方式运行基于 scipy.stats 的方法？
使用 pyspark.mllib.stat.KernelDensity 并行运行多个密度估计

在这两种情况中的任何一种情况下，目标都是利用并行性，而无需为循环内的每个变量顺序运行密度估计。