spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
给出以下内容, <pre><code> /** * With only one job active at a time this processing can ensure that data for * all pa
我有一个Java应用程序尝试使用<code>spark-streaming-kafka-0-10_2.11</code>来使用EC2中Kafka 2.5.1集群的主题。它仅适
我正在尝试通过<code>foreach</code>插入在每一行上创建的精致日志,并希望将其存储到Kafka主题中,如下所
我想阅读一个Kafka主题并写入一个Parquet或增量文件,并能够在阅读Kafka主题中的所有消息之前从该Parquet
我是Spark和Kafka环境的新手。根据我的工作,我必须使用kafka生产程序来生成一些记录,然后使用python代
我正在将窗口函数与<code>groupby</code>一起使用,并聚合流数据帧的一列。这给出了窗口大小10的基于移动
我有一个需要流式传输的JSON文件,因此我需要预先声明架构。该文件有300列以上,因此我想读取数据并
我们希望开发一种能够处理突发数据流,每秒1M个事件/持续1分钟的系统,然后负载将大大降低到100 / sec
我目前有一个脚本,该脚本从S3存储桶中获取数据并生成一个数据帧。我想将数据帧发送到雪花。目前,
我想使用Spark流从网站检索流中的数据。我认为我必须使用自定义接收器。所以,我尝试了这个: <pre
在Spark中完成流静态连接时,是否在每个微批处理期间通过api读取的静态资源(如read.csv)刷新。 <pre>
我正在使用Spark结构化流技术来从kafka流数据,这为我提供了具有以下架构的数据框 <pre><code>Column T
我正在使用Python 3.8,当我尝试在SPARK_HOME目录下运行bin \ pyspark时,出现以下错误: <pre><code> WARN ProcfsM
我正在AWS EMR中运行Spark结构化流作业,但是当我取消作业时,甚至取消并强制停止流作业也不会停止。
我的火花消耗Kafka出现数据累积问题。故障排除后,我发现数据消耗非常耗时,大约需要10分钟。我在这
我正在使用Spark结构化流式Kafka(2.4.0)处理一些事件,我看到这花了一些时间从kafka提取数据。 我想知
我想设置一个火花ETL批处理作业。我从<a href="https://databricks.com/blog/2017/05/22/running-streaming-jobs-day-10x-cost-sa
我正在获取带有文件路径的文件元数据。获取每个文件的元数据应该没有什么问题,但是要花大约1万个
我有2条带有水印的数据流,如下面的Give所示。我正在使用Spark结构化流式传输 <strong> Stream1->选择X
我正在jupyter上运行一个Spark流传输程序以使用来自Kafka集群的推文,而我遇到了麻烦,无法获取以下代码