rdd - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

rddrdd专题提供rdd的最新资讯内容，帮你更好的了解rdd。

Spark 和公共分区器：由同一键分区的两个单独的引用是否仅在连接时加载它们的公共分区？

法国城市数据（会计、企业、工作...）可以方便地按部门（<code>29=Finistère</code>、<code>33=Gironde</code> 等...

作者：佚名时间：2022-05-03

kafkashaded.org.apache.kafka.common.errors.TimeoutException：60000 毫秒后无法更新元数据

我目前正在研究用例，我正在将 pyspark 数据帧写入 confluent-kafka 主题。 <pre><code>def write_data(rows): rows.se

作者：佚名时间：2022-05-03

Pyspark 使用空条目计算行加权平均值

我有多个数据框，其值是在不同的源数据上计算出来的。为简单起见，我将举一个包含三个数据框的示

作者：佚名时间：2022-05-03

映射和过滤RDD时如何传递多个参数？

我目前有这一行来过滤并将函数应用于 RDD。 <pre><code>data_to_update.rdd.map(find_differences).filter(lambda row: boo

作者：佚名时间：2022-05-03

在 pyspark 中读取 DStrem 中的嵌套 JSON 数据

我编写了以下代码来从 Tweepy API 流式传输数据。我在流对象中获取数据。但是无法获得 streamp["user"]["follo

作者：佚名时间：2022-05-02

由于 False 作为条目，pyspark 中 json 文件中的记录已损坏

我有一个看起来像这样的 json 文件： <pre><code>test= {'kpiData': [{'date': '2020-06-03 10:05',

作者：佚名时间：2022-05-02

RDD pyspark partitionBy - TypeError：“int”对象不可下标

<pre><code>list_1 = [[6, [3, 8, 7]], [5, [9, 7, 3]], [6, [7, 8, 5]], [5, [6, 7, 2]]] rdd1 = sc.parallelize(list_1) newpairRDD = rdd1.partit

作者：佚名时间：2022-05-02

我如何将元组元组组合成一个元组？

我通过链接连接加入了三个 RDD 的 spark： <code>joined_rdds = rdd1.join(rdd2).join(rdd3)</code> joined_rdds.collect()

作者：佚名时间：2022-05-02

pyspark - RDD partitionBy 并映射一个函数不能两者都发生吗？

我想将 python 列表转换为 RDD、partitionBY 键，然后映射一个将迭代每条记录的函数，即“子列表”。

作者：佚名时间：2022-05-02

从 SPARK 中的 RDD 中找到最大长度的单词

在 SPARK Databricks 中工作我想从 RDD <strong>wordRDD</strong> 中找到最大长度的单词。我在 Python 中创建了

作者：佚名时间：2022-05-02

使用 RDD.mapPartitionsWithIndex 时如何获取每个分区的索引？

我是 spark 和 scala 的新手。 Spark中有没有办法从 <code>RDD.mapPartitionsWithIndex</code> 其定义如下： <pre><code>

作者：佚名时间：2022-05-01

如何在 Spark 和 Cassandra 中将数据从小表映射到大表？第一个表的主键是第二个表的分区键

这是我的表 1： <pre><code>case class Table1( key1: String // (primary key), value1: String ) </code></pre> 表 2：<

作者：佚名时间：2022-05-01

Pyspark RDD 消除值中的 None ？

我是 pyspark RDD 的新手，并且有一个从 JSON 文件中获取的数据帧： Row(created_at='2021-05-05 23:37:51', hash_t

作者：佚名时间：2022-05-01

如何在pyspark中按列对数据帧进行分区以进行进一步处理？

我需要按列对数据框进行分区。我知道可以保存在单独的文件中。但是我需要分区做进一步的处理（我

作者：佚名时间：2022-04-30

使用行中的第 n 个元素从 RDD 创建对

我用过这个代码： <pre><code>def process_row(row): words = row.replace('"', '').split(' ') for i i

作者：佚名时间：2022-04-30

具有数据大小和分区数量的 Spark Parallelism

<strong>如果我想用哈希分区器混洗数据，如何决定分区数</strong> (<code>df.rdd.partitionBy(new Hashpartitioner(**100**

作者：佚名时间：2022-04-30

从另一个数据框中的另一列替换空数据框中的一列

我有一个空的数据框： <pre><code>df_empty=spark.createDataFrame(sc.emptyRDD(), schema) </code></pre> 模式有嵌套字

作者：佚名时间：2022-04-30

如何将列名和列数据类型传递给 toDF() 函数

我们如何将列名和列数据类型同时传递给 <code>toDF()</code> 函数？类似的东西， <pre><code>df.rdd.map(

作者：佚名时间：2022-04-30

spark：将数据帧写入文件与将 rdd 写入 hdfs 中的文件之间的区别

在 hdfs 中将数据帧写入 csv 文件和将 rdd 写入 csv 文件有区别吗？ <ol> <li>我有一个将 rdd 写入文件的 Sca

作者：佚名时间：2022-04-29

通过匹配 spark rdd 中的小写键来减少

我有一个 (key, value) 对的 rdd，键是字符串，值是字符串出现的次数。 <pre><code>words.take(10) Out[98]: [(&#39

作者：佚名时间：2022-04-29

上一页 8 9 10 111213 14 15 下一页

小编推荐

苹果市值2025年有望达4万亿美元