rdd - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

rddrdd专题提供rdd的最新资讯内容，帮你更好的了解rdd。

Spark RDD 查找键值对的比率

我的 rdd 包含这样的键值对： <pre><code>(key1, 5), (key2, 10), (key3, 20), </code></pre> 我想执行一个map操作，

作者：佚名时间：2022-05-14

使用groupBy获取rdd列的总和和长度？

我有以下 RDD： <块引用> [(1, 300), (4, 60), (4, 20), (2, 2), (2, 3), (2, 5)] </blockquote> 我预期的 RDD 是：<

作者：佚名时间：2022-05-14

PySpark 减少 RDD 上只有单个元素

有没有办法只用一个元素来处理 RDD（这有时会发生在我正在做的事情上）？在这种情况下，reduce 停止工

作者：佚名时间：2022-05-14

删除带有条件的 RDD 值

我有一个这样的 RDD： <pre><code>[ (Person 1, [Cat, Dog, Cow]), (Person 2, [Cat]), (Person 3,[Cow, Chicken])] </code></pre> <p

作者：佚名时间：2022-05-12

整个数据帧是否没有使用 spark 中的缓存或持久方法缓存？

我是 Spark 的新手，我正在尝试了解 Spark 的持久性。当我调用 somedatframe.cache() 时，整个数据帧是否

作者：佚名时间：2022-05-12

scala spark rdd 错误：java.lang.ClassCastException：无法分配 java.lang.invoke.SerializedLambda 的实例

我是 Scala 和 Spark 的初学者。 scala 版本：2.12.10 火花版本：3.0.1 我正在 Scala 中尝试一个

作者：佚名时间：2022-05-12

scala spark rdd 错误：无法将 java.lang.invoke.SerializedLambda 的实例分配给字段 org.apache.spark.rdd.MapPartitionsRDD ]

火花版本：3.0.1 Scala 版本：2.12.10 由于我不是生活在英语世界，如果语法不正确，请谅解。我

作者：佚名时间：2022-05-11

使用 PySpark 随机洗牌/重新排序 RDD 对象的元素

我有一个由列表对象组成的 RDD 对象（例如： [[1,2],[3,4],[5,6]] ）。我需要取一个样本，并为此使用 sample(

作者：佚名时间：2022-05-11

从 JavaRdd 中删除以特定符号开头并后跟文本的行

我在控制台中以这种方式显示了一个 JavaRdd： <pre><code>[2021-04-12 21:32:17] TestTracker | Starting Suite 'de.ada

作者：佚名时间：2022-05-11

Spark获取一列作为齐柏林飞艇选择形式的使用序列

我有一个数据框，我想从中选择列作为 seq 以在 zeppelin Select 表单中使用。这是选择表单的工作原

作者：佚名时间：2022-05-11

在自实现对象/类的函数上使用 Pysparks rdd.parallelize().map()

我有要并行计算的对象，因此我想我可以求助于 pyspark。考虑这个例子，一个类的对象确实有一个

作者：佚名时间：2022-05-11

对 RDD 中嵌套列表中的元素进行排序Scala/Spark

[已解决 - 往下看] 我正在尝试对如下所示的 RDD 对象的每个嵌套列表中的元素进行排序： org.apache.sp

作者：佚名时间：2022-05-10

Group_by_key 在 Pyspark 中按顺序排列

<pre><code>rrr = sc.parallelize([1, 2, 3]) fff = sc.parallelize([5, 6, 7, 8]) test = rrr.cartesian(fff) </code></pre> 这是<code>test</c

作者：佚名时间：2022-05-10

提高性能 Pyspark RDD

考虑到我目前使用的数据集的维度，我开始使用 PySpark 在 Databricks 中工作。几周后，我仍然难以完全理

作者：佚名时间：2022-05-10

Pyspark，如何将原始数据转换为 SVMLight 格式

我有一个关于 Pyspark 地图的问题。例如，我有如下数据： <pre><code> data=[(1,1,1,10),(1,1,2,20),(2,1,3,15

作者：佚名时间：2022-05-05

pyspark中aggregate(0, lambda,lambda)的用法

有一个pyspark代码段 <pre><code>seqOp = (lambda x,y: x+y) sum_temp = df.rdd.map(lambda x: len(x.timestamp)).aggregate(0, seqOp,

作者：佚名时间：2022-05-06

pyspark，dataframe转成LibSVM/svmlight，特别是特征一定要从小到大

我有一个关于 Pyspark 地图的问题。例如，我有如下数据： <pre><code>data=[(1,1,1,10),(1,1,2,20),(2,1,3,15)

作者：佚名时间：2022-05-06

创建不同变量类型的DataFrame

我的原始数据如下所示：字符串后跟数字。 <pre><code>"cat",21,6,160,110,3.9,2.62,16.46,0,1,4,4 "dog",

作者：佚名时间：2022-05-04

为什么在读取文件时增加 NumPartitions 会比 spark RDD 中的原始文件增加输入大小？

我正在使用带有一个分区的 <code>sc.textFile(<fileName>, 1)</code> 读取一个小文本文件，我可以看到输入大

作者：佚名时间：2022-05-04

派斯帕克只获取最小值

我只想获得最小值。 <pre class="lang-py prettyprint-override"><code>import pyspark as ps spark = ps.sql.SparkSession.builder

作者：佚名时间：2022-05-03

上一页 7 8 9 101112 13 14 下一页

小编推荐

苹果市值2025年有望达4万亿美元