apache-spark-mllib - 编程之家

我知道这已经被问到了很多，但我已经完成了所有的问题，没有一个是特别针对这个的。我正在 Pyspark

我是 Scala 和 Spark ML 的新手。尝试根据 <a href="https://stackoverflow.com/questions/43938672/efficient-string-matching-in-apa

我使用的学生数据集来自： <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/00320/" rel="nofollow noreferrer"

我正在尝试在 Scala 上使用 XGBoost4j-Spark 编译一个 Maven 项目，但我无法摆脱错误： <pre><code>asset main.js 6

我使用 pyspark 运行了一些二元分类，并且我正在使用 <code>BinaryClassificationEvaluator</code> 来评估在测试集上

同时进行火花深度学习。有这个问题。 <pre><code>featurizer = DeepImageFeaturizer(inputCol="image",outputCol=&

使用鸢尾花数据集（LogisticRegressionWithLBFGS()，多类分类）。我将我的数据拉到一个 rdd 中，转换为一个 Da

这听起来像是一个简单的问题，但我无法弄清楚如何将 pyspark BlockMatrix 的内容显示到控制台。我应该调

我训练了一个 Kmeans 模型： <pre><code>kmeans = KMeans(k=20, seed=1) df.show() kmeans_model = kmeans.fit(df) </code></pre> <p

这是我已经矢量化的训练和测试数据集对于 mllib 的样子：训练： <a href="https://i.stack.imgur.com/6

在训练数据集上交叉验证超参数网格后，SparkML 的 <code>CrossValidator</code> 是否重新适合整个训练数据集？

这是我的代码： <pre><code> (trainingData, testData) = my_data.randomSplit([0.80, 0.20]) model = RandomForest.trainClassifi

我有两个数据集 dfA (5M) 和 dfB (6K)。我在 spark 2.2 上训练 <a href="https://spark.apache.org/docs/latest/ml-features#bucke

我有以下程序在 4 EMR VM 的集群模式下运行 <pre><code>public void insert(int value) { Element tmp = new Element(

我想使用 <code>pyspark.mllib.tree.DecisionTree</code> 训练一个简单的决策树分类器。我已经习惯了这样的典型语

当用一个小矩阵尝试 apache spark 的交替最小二乘法时，所有的评分都在 0-1 之间，有时略高于 1。像这样

如何在sparkml（二进制）分类中指定“正类”？（或者：<a href="https://spark.apache.org/docs/latest/api/python/refere

我的目标是将经过训练的 MLlib 模型从 AWS Glue Studio 作业编写到 S3。在另一份工作中，我想从 S3 中读取持

我想应用基于语言列的模型转换。 <pre><code>models = {} models['en'] = mlflow.spark.load_model("model_en&#34

我正在关注 Spark ML<a href="https://spark.apache.org/docs/1.5.1/ml-guide.html#example-estimator-transformer-and-param" rel="nofollow