spark-streaming - 编程之家

我正在尝试使用<strong> mapGroupsWithState </strong>方法对传入的数据流进行有状态的结构化流传输。但是我面

我正在尝试使用星火流消耗卡夫卡的一些数据。我已经创建了2个工作， <ol> <li>一个简单的卡夫

我在这里使用Spark Streaming（2.2.0）和Flume（1.6.0）的pull方法对字数进行实验。在本地VM上一切正常，因此

对于spark dstream应用程序，我需要访问以前的批处理数据帧/ rdds，因此，我尝试重新创建一个玩具示例以

<pre><code>{ "header": { "p1": "abcd", "p2": 5170, }, "data": [{

我正在尝试使用 pyspark 代码从 delta 表流式传输数据，并在每个周期之间以 10 - 15 分钟的间隔连续执行针

我正在尝试使用HAIL解析以.bgen格式传送到Spark DF的基因组数据。该文件的大小为150 GB，无法放入群集中的

使用以下代码，我可以将其压缩并保存为<strong> .gz </strong>文件 <pre><code>import spark.implicits._ val someDF

我在从Dstreams移植到结构化流媒体时遇到了麻烦，并且我已经设置了代码以将数据从比特币价格API输出到

我有一个结构如下的Java对象： <pre><code>public class Example{ private String key; private Object value; getters an

我正在尝试对Kafka源数据进行结构化流传输（Spark 2.4.0），在该源数据上我将读取最新数据并在10分钟的

是否有一种方法可以在一定时间到期后停止SparkSession，例如<code>import re s = 'lk78d1' regex = '^[\Sa-z

我是一个刚起步的新手。在我们的ubuntu服务器中，我看到已经下载了<code>APACHE-SPARK</code>。我的问题如下<

我一直试图找出确切的问题出在哪里，但无法做到。尝试也遵循类似<a href="https://stackoverflow.com/questions/49

我有一个用于Spark的Emr集群，具有以下2个实例的配置。 <pre><code>r4.2xlarge 8 vCore </code></pre> 因此，我

我正在使用DStream，Spark版本是1.6.0。我在Dstream数据上应用了<code>foreachRDD</code>，当我在<code>foreachRDD</code>

在带有水印的附加模式中使用<code>flatMapGroupWithState</code>时，何时将数据写入接收器？按照<a href="https://sp

如综合文章<a href="https://www.confluent.io/blog/crossing-streams-joins-apache-kafka/" rel="nofollow noreferrer">Crossing the Stream

我有来自Kafka的数据流，称为SourceStream。我还有另一个Spark SQL查询流，其单个值为Spark SQL查询以及

我想在Spark上读取非常大的xml文件数据集（每个xml文件大小= 1TB），并对每个文件启动解析过程，以便最