微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark流-Kinesis-Java

如何解决Spark流-Kinesis-Java

Spark Streaming中每批记录是否只能处理或触发一次方法/动作?

我的用例是,即使有1到n条记录,每个DStream批处理也会调用一次loadConfigurations()。加载的配置应在驱动程序中提供,以进行进一步处理。

例如:

第1批:运动学流中有0条记录-没有触发 loadConfiguration()

第2批:运动学流中有1条记录-调用一次loadConfiguration() 并在驱动程序级别更新变量

第3批:运动学流中有100条记录-调用loadConfiguration() 一次,并在驱动程序级别更新变量

预先感谢。

解决方法

不确定我是否了解确切的要求。但是,根据问题描述和您在注释中的解释,这可能会起作用:

dstream.foreachRDD { rdd =>
  val config = loadConfiguration() //  executed at the driver
  rdd.foreach { record =>
   // do stuff here. e.g. config.get(). This code is executed at the worker.
  }
}

这里要注意的重要一点是Config类必须可序列化,因为它将从驱动程序发送给工作者。

此外,请注意,这可能是反模式,具体取决于您的用例。例如对于每一批,配置对象都会被序列化并发送给工作程序,这将增加网络开销,具体取决于配置对象的大小。

我强烈建议您检查forEachRDD构造的推荐设计模式,并明智地选择您的方法。这是指向同一文件的链接:https://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。