apache-spark-mllib - 编程之家

apache-spark-mllibapache-spark-mllib专题提供apache-spark-mllib的最新资讯内容，帮你更好的了解apache-spark-mllib。

为什么 sparkml 的随机森林分类器不支持 <a href="https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.cla

您应该在何时/在什么情况下使用 StringIndexer 与 StringIndexer+OneHotEncoder？查看 sparkml 的 StringIndexer (<a

我无法选择在 onevsrest 分类器模型上转换的数据框。 <strong>错误描述： net.razorvine.pickle.PickleException

我使用 PySpark 的 DecisionTreeRegressor 来拟合决策树。我根据下面的代码块输出树的规则： <pre><code>x = [&#3

param=ParamGridBuilder().addGrid(lr.regParam,[0.1,0.01,0.001]).addGrid(lr.maxIter, [5,10,15,20]).build() crossval = CrossVa

第一次在这里发帖！我正在尝试通过 pyspark2pmml 保存我的逻辑回归模型。但是，我不断收到标题中所述的

我有一个 Hadoop 集群，我使用 Spark 和 ALS 算法来计算一些预测。我正在考虑调整超参数以获得更好的预测

使用相同的代码，我在我的笔记本电脑（16 GB 内存，8 核）和 Azure Databricks 7.3 LTS 集群上的 10,000 行上运

在 Pyspark（2.4.5 版）中训练 MultilayerPerceptronClassifier 时，出现以下异常： <code>var data = {'arrayField&#

我正在尝试使用远程服务器中可用的数据集构建线性回归模型。首先，我使用以下代码拉取 RDS：</

关于我收到的 Spark 异常的小问题。我有一个非常简单的数据集： <pre><code>myCoolDataset.show();

我正在尝试在 pyspark 中构建电影推荐模型，但在我尝试训练模型时，我不断收到“PipelinedRDD”对象没有

Apache Spark 的两个 ML 库，即 MLlib 和 ML 都支持通过 API 使用 ALS 算法，并且它在批处理中运行良好，但 Spark

我在 pyspark 中从 RDD 创建了一个 Rowmatix 对象。但是当我尝试对其调用 numRows 方法时，我遇到了“没有名

在 spark ml 中使用 OneHotEncoder 后是否可以执行 oneHotDecoder？有什么办法可以做到这一点吗？ <pre class="lan

我正在尝试在 pyspark 中使用 kmeans 进行聚类。我有类似下面的 id_predictions_df 示例的数据。我首先旋转数

我正在使用 PySpark 中对象 <code>BucketedRandomProjectionLSH</code> 的 approxNearestNeighbors() 函数。我试图找出一种方

分类导航