spark-streaming - 编程之家

我正在尝试构建一些技术组合以在我的工作中实施解决方案。由于我是大多数人的新手，有时我会陷入

我对Spark很陌生，需要使用JAVA api。我们的目标是实时提供预测，用户将在其中提供一些变量，但当然不

有人可以帮忙将以下代码转换为scala吗？ <pre><code>(spark.read .format("parquet") .option("basePath

给出了s3序列所需的内容。任何两个位置的区别是表的分区列值。每个实木复合地板文件夹都具有

我正在尝试解析本质上是动态的Json结构并将其加载到数据库中。但是面临着其中json具有动态键的困难。

我是Pyspark的新手。我正在尝试运行pyspark代码。我运行了一个名为“ time.py”的代码，因此pyspark无法立即

我正在使用具有启用水印功能的无状态Spark 2.4.5结构流传输并删除重复项。 1小时后，我遇到了内存问题

我们正在使用spark 2.4.5在Kubernetes集群上运行Spark Streaming应用程序。该应用程序通过Kafka主题（每3ms一条

我正在尝试为我的Spark Streaming应用程序确定适当的检查点间隔。它的Spark Kafka集成基于不带状态等的直接

尝试以下代码时出现序列化错误 <pre><code>public Result implements Serializable { ArrayList<AvroGeneratedEntity&gt

让我们假设我有一个事件流，它是转换为案例类的以下JSON <pre><code> e.g. {"id" : "IdOfUser" , &

嗨，我是Spark sql的新手，并得到了一份编写Spark作业的任务，以使用Spark sql从jdbc加载数据并将其加载到ca

我遵循了<a href="https://stackoverflow.com/questions/55796119/unable-to-send-data-to-mongodb-using-kafka-spark-structured-streaming">

我正在为我的项目使用spark 1.6.0并在单群集模式下运行，以前我的系统具有8个核心，并且能够在2分钟内

我在Java8中使用spark-sql-2.4.1v。如果给定的数据框列列表中存在列，我有一种情况需要执行某些操作

我想用<code>spark.sql.extensions</code>配置Spark 3.0来指定多个扩展名。但是它将用新扩展名覆盖先前的扩

我有一个Spark结构化的流媒体，在我有正确的记录计数后，我需要停止流媒体播放过程。到目前为

我正在尝试将流数据集写入Cassandra。我有以下课程的流数据集； <pre><code>case class UserSession(var i

我在Java8中使用spark-sql-2.4.1v。我有下面的情况 <pre><code>List data = List( ("20", "score", "sch

我正在尝试将流数据读取到来自Azure Eventhubs的Azure Databricks中。这是我一直在使用的代码： <pre><code>co