spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
所以我有一个文件s3a://some-bucket/streaming/csv/file.csv,其中包含以下内容: <pre><code>name,number John Doe,1 </
我希望将Spark Stream的输出在翻滚窗口的末尾而不是在批处理间隔发送到接收器。 我正在从Kafka流中
我正在为我的项目使用Spark和Spark流进行一些POC。因此,我要做的就是从Topic中读取文件名。从“ src / main
我正在使用Spark文件流从Hadoop文件夹读取和处理。 但它也从Hadoop流式传输.tmp文件。请帮助我仅从Hadoop流
以下程序运行一个简单的字数来测试Spark结构化的流。我在终端上写单词,然后在另一个终端上运行程序
在我的火花工作中,我试图覆盖结构化流的每个微批处理中的一个表 <pre><code>batchDF.write.mode(SaveMode.Ove
我正在尝试按livy POST api(/ sessions /:sessionId / statements)提交火花作业。但是,在提交35条以上的语句(
我对Databricks来说还比较陌生,正在尝试读取传入的传感器数据并根据每组数据触发一个规则集。寻找有
我经历了很多类似的事情,其中​​大多数批准的答案是端口必须打开才能启动连接,因此spark无法连接
我需要使用托管身份机制来从kubernetes中运行的Spark流应用程序访问事件中心 我正在通过azure AAD pod托管身
我有一个spark程序,它通过ML模型(两个随机森林的集合)处理来自Kafka的数据流。我的整体RF每隔几批更
我想在Spark文件流应用程序中实现检查点,以在任何情况下我的Spark流媒体应用程序停止/终止时处理hadoop
我们在火花中消耗了运动学流,并且流中有多个碎片。按照示例中的代码 <a href="https://github.com/apac
我正在将Java8与Spark v2.4.1。一起使用 我正尝试使用广播变量<code>Map</code>进行查找,如下所示: <
我有一个长期的spark结构流工作,可以读取有关Kafka主题的数据。我正在使用s3作为kafka检查点存储。它运
我正在尝试汇总Spark时间戳结构化流,以获取每秒钟传入数据的每个设备(源)平均值。 <pre><code>datas
我正在使用Spark 2.3.1来处理文本文件流。上下文设置如下: <pre class="lang-scala prettyprint-override"><code>val
我在Spark结构化流媒体中具有以下代码 <pre><code>&lt;canvas id=&#34;canvas&#34; class=&#39;blueCanvas&#39; width=&#34;30
我正在纱线簇模式下运行火花流,为此我想捕获日志并将其写入驱动程序本地文件中,我创建了自定义lo
我在Spark Streaming 2.2.1作业中有16个接收器。一段时间后,一些接收器正在处理越来越少的记录,最终仅每