apache-spark-2.0 - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

apache-spark-2.0apache-spark-2.0专题提供apache-spark-2.0的最新资讯内容，帮你更好的了解apache-spark-2.0。

控制在Spark中处理分区的顺序

因此，为了最佳利用群集CPU，我希望以<code>MyPartitioner.getPartition(key)</code>给出的顺序大致处理分区。

作者：佚名时间：2022-07-27

如果不需要缓存，Apache Spark是否会重新使用堆内存？

如果我的spark 2.x应用程序不需要缓存，建议我将<code>spark.storage.fraction</code>设置为零。如果不执行缓存，

作者：佚名时间：2022-06-11

读取镶木地板文件时合并架构失败，因为数据类型int和bigint不兼容

尝试通过架构合并加载镶木地板文件时 <pre><code> df = spark.read.option("mergeSchema", "true").parqu

作者：佚名时间：2022-06-07

Spark 2.4.5 toDF函数无法编译

我正在尝试将项目从Spark 1.6迁移到Spark 2.4.5，但发现有关此主题的一些问题。我正在使用Scala 2.11.12和Scal

作者：佚名时间：2022-06-06

外部随机播放服务的节点管理器堆大小

我正在按照<a href="https://spark.apache.org/docs/latest/running-on-yarn.html#configuring-the-external-shuffle-service" rel="nofollow

作者：佚名时间：2022-06-02

如何通过自定义侦听器获取所有 Spark 执行程序的总存储内存

我正在通过以下方式在 Java 中实现自定义 Spark 侦听器： <code>public class MetricsSparkListener extends SparkListener</

作者：佚名时间：2022-05-31

使用 SHC 从 HBase 读取数据时出错

我是 Spark 的新手，想从 HBase 表读取/写入数据。我跟着这个 <a href="https://docs.microsoft.com/en-us/azure/hdinsight/

作者：佚名时间：2022-05-30

根据行值将 UDF 应用于 pyspark 数据帧

我有一个具有以下架构的 pyspark 数据框 <pre><code>+-----------+---------+----------+-----------+ | userID|grouping1|

作者：佚名时间：2022-05-29

Spark未加载文件夹中的所有文件

我试图从一个文件夹中加载多个 JSON 文件，每个文件都以一个数字结尾，所以我在路径中使用了通配符 (

作者：佚名时间：2022-05-26

在分流之前缓存在火花中

我有一个关于使用 Spark DataFrame 的基本问题。考虑以下伪代码： <pre><code>val df1 = // Lazy Read from cs

作者：佚名时间：2022-05-26

如何将此数据集转换为以下数据集

输入 <pre><code>+------+------+------+------+ |emp_name|emp_area| dept|zip| +------+------+------+------+ |ram|USA|"Sales"

作者：佚名时间：2022-05-24

如何转换此数据框/数据集 spark Scala？

输入 <pre><code>+--------------+-----------+ | country name|country code +--------------+-----------+ | USA| 400001| |

作者：佚名时间：2022-05-23

如何使用pyspark中java代码的字节串处理流RDD输出

我有一个流式管道，其中嵌套的 json 格式数据被馈送到 Cloud PubSub。然后使用 Spark Streaming 作为流获取数

作者：佚名时间：2022-04-29

如何选择 pyspark 2.1.0 中不存在于另一个数据帧中的行？

<h1>环境</h1> <ul> <li>pyspark 2.1.0</li> </ul> <h1>背景</h1> 我有两个具有以下结构的数据框：数据帧 1：

作者：佚名时间：2022-04-25

对于 spark2，build/mvn 失败

在对spark2的代码进行一些更改后，我正在尝试构建一个jar 我使用的命令是 <pre><code>build/mvn package

作者：佚名时间：2022-04-23

如何添加相对于火花数据框中第一行值的增量日期值

输入： <pre><code>+------+--------+ |Test |01-12-20| |Ravi | null| |Son | null| </code></pre> 预期输出：</

作者：佚名时间：2022-04-21

如何计算 pyspark 数据帧中某个键的出现次数 (2.1.0)

<h1>背景</h1> 假设我有以下数据框： <pre><code>col1 | col2 | col3 a | toto | 1 a | toto | 2 a | toto | 45 a |

作者：佚名时间：2022-04-21

为什么 spark 无法识别我的“数据框布尔表达式”？

<h1>环境</h1> <ul> <li><code>pyspark 2.1.0</code></li> <li><code>python 3.5.2</code></li> </ul> <h1>问题</h1> 我有多个条件的

作者：佚名时间：2022-04-21

Apache Spark 如何保留输出 textFile 中的行顺序？

任何人都可以帮助我理解 <code>apache-spark</code> 如何在从 textFile 读取时保留输出中的行顺序。考虑下面的

作者：佚名时间：2022-11-23

小编推荐

苹果市值2025年有望达4万亿美元