spark-streaming专题提供spark-streaming的最新资讯内容,帮你更好的了解spark-streaming。
我正在尝试构建一些技术组合以在我的工作中实施解决方案。由于我是大多数人的新手,有时我会陷入
我对Spark很陌生,需要使用JAVA api。我们的目标是实时提供预测,用户将在其中提供一些变量,但当然不
有人可以帮忙将以下代码转换为scala吗? <pre><code>(spark.read .format(&#34;parquet&#34;) .option(&#34;basePath
给出了s3序列所需的内容。任何两个位置的区别是表的分区列值。 每个实木复合地板文件夹都具有
我正在尝试解析本质上是动态的Json结构并将其加载到数据库中。但是面临着其中json具有动态键的困难。
我是Pyspark的新手。我正在尝试运行pyspark代码。我运行了一个名为“ time.py”的代码,因此pyspark无法立即
我正在使用具有启用水印功能的无状态Spark 2.4.5结构流传输并删除重复项。 1小时后,我遇到了内存问题
我们正在使用spark 2.4.5在Kubernetes集群上运行Spark Streaming应用程序。 该应用程序通过Kafka主题(每3ms一条
我正在尝试为我的Spark Streaming应用程序确定适当的检查点间隔。它的Spark Kafka集成基于不带状态等的直接
尝试以下代码时出现序列化错误 <pre><code>public Result implements Serializable { ArrayList&lt;AvroGeneratedEntity&gt
让我们假设我有一个事件流,它是转换为案例类的以下JSON <pre><code> e.g. {&#34;id&#34; : &#34;IdOfUser&#34; , &
嗨,我是Spark sql的新手,并得到了一份编写Spark作业的任务,以使用Spark sql从jdbc加载数据并将其加载到ca
我遵循了<a href="https://stackoverflow.com/questions/55796119/unable-to-send-data-to-mongodb-using-kafka-spark-structured-streaming">
我正在为我的项目使用spark 1.6.0并在单群集模式下运行,以前我的系统具有8个核心,并且能够在2分钟内
我在Java8中使用spark-sql-2.4.1v。如果给定的数据框列列表中存在列,我有一种情况需要执行某些操作
我想用<code>spark.sql.extensions</code>配置Spark 3.0来指定多个扩展名。 但是它将用新扩展名覆盖先前的扩
我有一个Spark结构化的流媒体,在我有正确的记录计数后,我需要停止流媒体播放过程。 到目前为
我正在尝试将流数据集写入Cassandra。 我有以下课程的流数据集; <pre><code>case class UserSession(var i
我在Java8中使用spark-sql-2.4.1v。 我有下面的情况 <pre><code>List data = List( (&#34;20&#34;, &#34;score&#34;, &#34;sch
我正在尝试将流数据读取到来自Azure Eventhubs的Azure Databricks中。 这是我一直在使用的代码: <pre><code>co