spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
我正在开发一个Spark流任务,该任务将流中的数据与Cassandra Table连接起来。如您在解释计划中所见,未使
我有一个pyspark数据框 <pre><code>a = [ (0.31, .3, .4, .6, 0.4), (.01, .2, .92, .4, .47), (.3, .1, .05, .2, .82),
我如何恢复数据:每15分钟我要恢复过去15分钟的数据。 如果我的时间是14H:00,则必须将数据从13H:45
我有一个具有10万条记录的数据框,并且我想在一列的基础上删除重复的记录,然后在过滤掉不同数据框
我需要使用通过MQTT Broker从IoT设备获得的数据上的火花进行分析。我的Spark作业与MQTT代理之间的连接是可
我正在使用Spark结构化流(版本2.3.2)。我需要从Kafka Cluster中读取并写入以Kerberized的Kafka。 在将记录写
我对此线程(<a href="https://stackoverflow.com/questions/47228309/how-to-write-stream-to-s3-with-year-month-and-day-of-the-day-when
我想要一些有关如何解决从队列中提取的项目分组问题的建议。我将通过删除所有不必要的细节来尽可
我正在尝试制作一个Spark应用程序来处理和处理实时流式动态日志。 下面是日志结构: <pre><code>2020-09
我有一个来自kafka的spark结构化流应用程序。我正在尝试实现类似这样的方法。 <ul> <li>每微型批次运
我对DStreams主题完全陌生-DStreams的基本抽象,用于批量接收数据流。我想做的是,我有一个包含1000多个
我有一个结构化的流作业,该作业从kafka读取,执行聚合并写入hdfs。作业在纱线中以群集模式运行。我
我下面有实时流日志类型,其中包含文本类型和json类型。 <pre><code>2020-09-24T08:03:01.633Z 11.21.23.1 {&#34;Eve
我正在尝试结合两个流媒体火花。主要流是由多个参数值组成的数据记录,另一个流是模型上下文。因
默认情况下,在Spark结构化流式Spark中,打印指标,但根据文档<em> triggerExecution </em>,必须是执行整个批
我有一个Spark结构化流作业,该作业从具有50个分区的Kafka主题中读取。重批之一。在第一次尝试中,分
我正在尝试通过进行REST API调用的map()转换来设置结构化流作业。详细信息如下: <pre><code>(1) df=spar
我有一个包含python和文本文件的zip文件夹<code>ce.zip</code>,该文件夹通过以下方式传递给sparks群集。 <p
在csv文件中,作为日期时间字段的某些列的输入格式为“ mm-dd-yyyy hh:mm:ss”。在数据框中加载文件时
我正在使用自定义接收者从外部资源中提取数据,我不确定是什么原因导致运行了几个小时后在kuberenetes