微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

pyspark - 如何在 GCP 上托管的 dataproc 中运行和安排流式作业

如何解决pyspark - 如何在 GCP 上托管的 dataproc 中运行和安排流式作业

我正在尝试使用 pyspark 代码从 delta 表流式传输数据,并在每个周期之间以 10 - 15 分钟的间隔连续执行针对最终 delta 目标的合并。

我编写了一个简单的 pyspark 代码并使用命令“spark-submit gs://>.py”在 spark shell 中提交作业。但是,脚本运行一次,不走下一个循环。

代码示例:

SourceDF.writeStream
  .format("delta")
  .outputMode("append") -- I have also tried "update"
  .foreachBatch(mergetoDelta)
  .option("checkpointLocation","gs:<<path_for_the_checkpint_location>>")
  .trigger(processingTime="10 minutes") -- I have tried continuous='10 minutes"
  .start()

如何在 Google Cloud 中的 dataproc 中提交 Spark 作业以进行连续流式处理?

流式作业的源和目标都是增量表。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。