spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
我对Spark和SQL相当陌生。我试图在我的df中添加一列(然后将其保存到Delta表中),该列为每个记录/行提
我有一个Spark Streaming应用程序(pyspark),在其中我从后端数据中心监视应用程序通过Kafka端点接收消息
我想将Spark应用程序的指标保存在数据库中,以分析和预测下一次运行的资源。我想跟踪应用程序的以下
我在S3中有一个没有物理分区的表。 Ids的基数太高。除了分区以外,我想按排序顺序保存数据。我还想
检查以下代码。如果存在重复的密钥,它将生成含糊不清的数据帧。我们应该如何修改代码以添加父列
以下代码用于提取给定父列的子数据框。 <pre><code>mdf.selectExpr(mdf.schema.map(c =&gt; if(c.dataType.typeName ==&#34
采用以下示例数据框: <pre class="lang-scala prettyprint-override"><code>val df = Seq(Seq(&#34;xxx&#34;)).toDF(&#34;a&#34;)
我想调试笔记本电脑,因此我需要在笔记本电脑控制台模式下打印流数据。我有两个问题: 1-是否可以
在Spark结构化流媒体(Spark 2.2版本)中,我有以下情形: <ol> <li> Kafka主题(单个主题)中的JSON结构如
我正在编写一个代码,其中我试图使用pySpark的结构化流将数据流化为弹性搜索。 火花版本:3.0.0
我必须在我的Spark Streaming应用程序中启动400个接收器,但是启动接收器花费的时间很长,这导致一个问题
我正在尝试将流数据从Kafka加载到SQL Server大数据群集数据池中。我正在使用Spark 2.4.5(Bitnami 2.4.5 spark图
给出一个动态的structType。在这里structType名称是未知的。它是动态的,因此名称正在更改。 名称是
<strong>高度赞赏帮助</strong> 问题描述: 我正在尝试通过火花流消耗运动学中的数据。但是问题是
给出具有以下模式的数据框。问题在于数据框是动态的,字段也是动态的。因此,您可以预先假定给定
我在MapR集群中有2个位置,而我的Spark作业正在从这2个端点加载数据。 端点之一拥有大量数据,而其他
我们正在生成如下数据框 <pre><code>val res_df = df.select($&#34;id&#34;,$&#34;type&#34;,$&#34;key&#34;,from_json($&#34;valu
我在spark中有一个非常奇怪的要求,其中我必须转换数据帧中存在的数据。 因此,我从s3存储桶中读取数
我正在尝试获取Spark结构化流媒体中的Parentgroup,childgroup和MountingType组的唯一ID。 代码:以下代码
以下代码在Spark Scala结构化流中引发了过载错误。 错误: <pre><code>Cannot resolve overloaded method window