spark-streaming - 编程之家

所以我有一个文件s3a：//some-bucket/streaming/csv/file.csv，其中包含以下内容： <pre><code>name,number John Doe,1 </

我希望将Spark Stream的输出在翻滚窗口的末尾而不是在批处理间隔发送到接收器。我正在从Kafka流中

我正在为我的项目使用Spark和Spark流进行一些POC。因此，我要做的就是从Topic中读取文件名。从“ src / main

我正在使用Spark文件流从Hadoop文件夹读取和处理。但它也从Hadoop流式传输.tmp文件。请帮助我仅从Hadoop流

以下程序运行一个简单的字数来测试Spark结构化的流。我在终端上写单词，然后在另一个终端上运行程序

在我的火花工作中，我试图覆盖结构化流的每个微批处理中的一个表 <pre><code>batchDF.write.mode(SaveMode.Ove

我正在尝试按livy POST api（/ sessions /：sessionId / statements）提交火花作业。但是，在提交35条以上的语句（

我对Databricks来说还比较陌生，正在尝试读取传入的传感器数据并根据每组数据触发一个规则集。寻找有

我经历了很多类似的事情，其中大多数批准的答案是端口必须打开才能启动连接，因此spark无法连接

我需要使用托管身份机制来从kubernetes中运行的Spark流应用程序访问事件中心我正在通过azure AAD pod托管身

我有一个spark程序，它通过ML模型（两个随机森林的集合）处理来自Kafka的数据流。我的整体RF每隔几批更

我想在Spark文件流应用程序中实现检查点，以在任何情况下我的Spark流媒体应用程序停止/终止时处理hadoop

我们在火花中消耗了运动学流，并且流中有多个碎片。按照示例中的代码 <a href="https://github.com/apac

我正在将Java8与Spark v2.4.1。一起使用我正尝试使用广播变量<code>Map</code>进行查找，如下所示： <

我有一个长期的spark结构流工作，可以读取有关Kafka主题的数据。我正在使用s3作为kafka检查点存储。它运

我正在尝试汇总Spark时间戳结构化流，以获取每秒钟传入数据的每个设备（源）平均值。 <pre><code>datas

我正在使用Spark 2.3.1来处理文本文件流。上下文设置如下： <pre class="lang-scala prettyprint-override"><code>val

我在Spark结构化流媒体中具有以下代码 <pre><code><canvas id="canvas" class='blueCanvas' width="30

我正在纱线簇模式下运行火花流，为此我想捕获日志并将其写入驱动程序本地文件中，我创建了自定义lo

我在Spark Streaming 2.2.1作业中有16个接收器。一段时间后，一些接收器正在处理越来越少的记录，最终仅每