spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
我正在尝试使用<strong> mapGroupsWithState </strong>方法对传入的数据流进行有状态的结构化流传输。但是我面
我正在尝试使用星火流消耗卡夫卡的一些数据。 我已经创建了2个工作, <ol> <li>一个简单的卡夫
我在这里使用Spark Streaming(2.2.0)和Flume(1.6.0)的pull方法对字数进行实验。在本地VM上一切正常,因此
对于spark dstream应用程序,我需要访问以前的批处理数据帧/ rdds, 因此,我尝试重新创建一个玩具示例以
<pre><code>{ &#34;header&#34;: { &#34;p1&#34;: &#34;abcd&#34;, &#34;p2&#34;: 5170, }, &#34;data&#34;: [{
我正在尝试使用 pyspark 代码从 delta 表流式传输数据,并在每个周期之间以 10 - 15 分钟的间隔连续执行针
我正在尝试使用HAIL解析以.bgen格式传送到Spark DF的基因组数据。该文件的大小为150 GB,无法放入群集中的
使用以下代码,我可以将其压缩并保存为<strong> .gz </strong>文件 <pre><code>import spark.implicits._ val someDF
我在从Dstreams移植到结构化流媒体时遇到了麻烦,并且我已经设置了代码以将数据从比特币价格API输出到
我有一个结构如下的Java对象: <pre><code>public class Example{ private String key; private Object value; getters an
我正在尝试对Kafka源数据进行结构化流传输(Spark 2.4.0),在该源数据上我将读取最新数据并在10分钟的
是否有一种方法可以在一定时间到期后停止SparkSession,例如<code>import re s = &#39;lk78d1&#39; regex = &#39;^[\Sa-z
我是一个刚起步的新手。在我们的ubuntu服务器中,我看到已经下载了<code>APACHE-SPARK</code>。我的问题如下<
我一直试图找出确切的问题出在哪里,但无法做到。尝试也遵循类似<a href="https://stackoverflow.com/questions/49
我有一个用于Spark的Emr集群,具有以下2个实例的配置。 <pre><code>r4.2xlarge 8 vCore </code></pre> 因此,我
我正在使用DStream,Spark版本是1.6.0。我在Dstream数据上应用了<code>foreachRDD</code>,当我在<code>foreachRDD</code>
在带有水印的附加模式中使用<code>flatMapGroupWithState</code>时,何时将数据写入接收器?按照<a href="https://sp
如综合文章<a href="https://www.confluent.io/blog/crossing-streams-joins-apache-kafka/" rel="nofollow noreferrer">Crossing the Stream
我有来自Kafka的数据流,称为SourceStream。 我还有另一个Spark SQL查询流,其单个值为Spark SQL查询以及
我想在Spark上读取非常大的xml文件数据集(每个xml文件大小= 1TB),并对每个文件启动解析过程,以便最