spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
我正在尝试做这样的事情 <pre><code>df = //readstream df.window($&#34;ts_col&#34;, &#34;5 minutes&#34;) .writeStream .forma
我在用pyspark编写的Spark Streaming代码中遇到了这个奇怪的错误。我尝试调试此代码,但没有任何原因 <p
如何每5分钟触发一次并获取最近1小时的数据?我想出了这一点,但似乎并没有给我最后1个小时的所有
我的hdfs中有这些数据流: <pre><code>nyu,-0.0,1.36,0.64,1.3616,15131c3f-7ad9-489d-bbc4-0f99305b7db0 madrid,-0.494,1.506,0.0,
我正在尝试使用结构化流(pyspark)将平面文件中的数据流化为弹性搜索 火花-2.4.6 Scala-2.11.0
我正在为spark更改conf,以限制我的spark结构化流日志文件的日志。我已经找到了执行此操作的属性,但是
<ul> <li>我的程序员起初运行正常。</li> <li>当我添加spark BloomFilter时,我的程序员在执行几次批处理后失败
我们很少有Spark应用程序(流和批处理模式)。我们在数据库中保存了一些配置数据(来自不同表)。在
我已经阅读了一些有关火花流的知识,我想知道是否有可能从以Rabbitmq作为代理的自定义源中流数据,并
我正在使用dataproc进行Spark流媒体作业。群集配置就像1个主节点和4个工作节点>事项-> 2个vcore和7.5 GB内存
我有一个运行很好的Spark流媒体应用程序(2.4.4,Kafka 0.8 >>,因此是Spark Direct Streaming)。 我通过以
我的本​​地驱动器(Windows)中有一些带有约10K记录的静态文件(log_file)。结构如下。 <pre><code>&#34
当前,我正在构建一个应用程序,该应用程序在Kafka Topic中读取消息(json中的事务)并在生产时发送给IB
我有一个运行了很长时间的Spark结构化流作业,正在吸收kafka数据。我有一个问题如下。如果作业由于某
<strong>上下文</strong>:我正在研究一个火花流传输管道,以实现200K + RPS的高吞吐量。该管道正在<strong>
在以下代码段中,我试图从Spark 3.0的结构化流中获取指向时间戳<code>measuredAt</code>的最新值的行。
我是Spark Streaming的新手,我正在做一个小型个人项目来研究这项技术。我想使用Twitter API获取实时推文,
我在运行无法连接到Kinesis数据源的Glue Streaming作业时感到错误以下: 错误: <pre><code>WARNING:root:S
在一种情况下,我们已按帐号对输入的Kafka主题进行了划分。每个分区都直接写入数据库,并且彼此之间
Spark Streaming中每批记录是否只能处理或触发一次方法/动作? 我的用例是,即使有1到n条记录,每