spark-streaming - 编程之家

我对Spark和SQL相当陌生。我试图在我的df中添加一列（然后将其保存到Delta表中），该列为每个记录/行提

我有一个Spark Streaming应用程序（pyspark），在其中我从后端数据中心监视应用程序通过Kafka端点接收消息

我想将Spark应用程序的指标保存在数据库中，以分析和预测下一次运行的资源。我想跟踪应用程序的以下

我在S3中有一个没有物理分区的表。 Ids的基数太高。除了分区以外，我想按排序顺序保存数据。我还想

检查以下代码。如果存在重复的密钥，它将生成含糊不清的数据帧。我们应该如何修改代码以添加父列

以下代码用于提取给定父列的子数据框。 <pre><code>mdf.selectExpr(mdf.schema.map(c => if(c.dataType.typeName ==&#34

采用以下示例数据框： <pre class="lang-scala prettyprint-override"><code>val df = Seq(Seq("xxx")).toDF("a")

我想调试笔记本电脑，因此我需要在笔记本电脑控制台模式下打印流数据。我有两个问题： 1-是否可以

在Spark结构化流媒体（Spark 2.2版本）中，我有以下情形： <ol> <li> Kafka主题（单个主题）中的JSON结构如

我正在编写一个代码，其中我试图使用pySpark的结构化流将数据流化为弹性搜索。火花版本：3.0.0

我必须在我的Spark Streaming应用程序中启动400个接收器，但是启动接收器花费的时间很长，这导致一个问题

我正在尝试将流数据从Kafka加载到SQL Server大数据群集数据池中。我正在使用Spark 2.4.5（Bitnami 2.4.5 spark图

给出一个动态的structType。在这里structType名称是未知的。它是动态的，因此名称正在更改。名称是

<strong>高度赞赏帮助</strong> 问题描述：我正在尝试通过火花流消耗运动学中的数据。但是问题是

给出具有以下模式的数据框。问题在于数据框是动态的，字段也是动态的。因此，您可以预先假定给定

我在MapR集群中有2个位置，而我的Spark作业正在从这2个端点加载数据。端点之一拥有大量数据，而其他

我们正在生成如下数据框 <pre><code>val res_df = df.select($"id",$"type",$"key",from_json($"valu

我在spark中有一个非常奇怪的要求，其中我必须转换数据帧中存在的数据。因此，我从s3存储桶中读取数

我正在尝试获取Spark结构化流媒体中的Parentgroup，childgroup和MountingType组的唯一ID。代码：以下代码

以下代码在Spark Scala结构化流中引发了过载错误。错误： <pre><code>Cannot resolve overloaded method window