spark-streaming - 编程之家

我正在开发一个Spark流任务，该任务将流中的数据与Cassandra Table连接起来。如您在解释计划中所见，未使

我有一个pyspark数据框 <pre><code>a = [ (0.31, .3, .4, .6, 0.4), (.01, .2, .92, .4, .47), (.3, .1, .05, .2, .82),

我如何恢复数据：每15分钟我要恢复过去15分钟的数据。如果我的时间是14H：00，则必须将数据从13H：45

我有一个具有10万条记录的数据框，并且我想在一列的基础上删除重复的记录，然后在过滤掉不同数据框

我需要使用通过MQTT Broker从IoT设备获得的数据上的火花进行分析。我的Spark作业与MQTT代理之间的连接是可

我正在使用Spark结构化流（版本2.3.2）。我需要从Kafka Cluster中读取并写入以Kerberized的Kafka。在将记录写

我对此线程（<a href="https://stackoverflow.com/questions/47228309/how-to-write-stream-to-s3-with-year-month-and-day-of-the-day-when

我想要一些有关如何解决从队列中提取的项目分组问题的建议。我将通过删除所有不必要的细节来尽可

我正在尝试制作一个Spark应用程序来处理和处理实时流式动态日志。下面是日志结构： <pre><code>2020-09

我有一个来自kafka的spark结构化流应用程序。我正在尝试实现类似这样的方法。 <ul> <li>每微型批次运

我对DStreams主题完全陌生-DStreams的基本抽象，用于批量接收数据流。我想做的是，我有一个包含1000多个

我有一个结构化的流作业，该作业从kafka读取，执行聚合并写入hdfs。作业在纱线中以群集模式运行。我

我下面有实时流日志类型，其中包含文本类型和json类型。 <pre><code>2020-09-24T08:03:01.633Z 11.21.23.1 {"Eve

我正在尝试结合两个流媒体火花。主要流是由多个参数值组成的数据记录，另一个流是模型上下文。因

默认情况下，在Spark结构化流式Spark中，打印指标，但根据文档<em> triggerExecution </em>，必须是执行整个批

我有一个Spark结构化流作业，该作业从具有50个分区的Kafka主题中读取。重批之一。在第一次尝试中，分

我正在尝试通过进行REST API调用的map（）转换来设置结构化流作业。详细信息如下： <pre><code>(1) df=spar

我有一个包含python和文本文件的zip文件夹<code>ce.zip</code>，该文件夹通过以下方式传递给sparks群集。 <p

在csv文件中，作为日期时间字段的某些列的输入格式为“ mm-dd-yyyy hh：mm：ss”。在数据框中加载文件时

我正在使用自定义接收者从外部资源中提取数据，我不确定是什么原因导致运行了几个小时后在kuberenetes