如何解决Spark流-Kinesis-Java
Spark Streaming中每批记录是否只能处理或触发一次方法/动作?
我的用例是,即使有1到n条记录,每个DStream批处理也会调用一次loadConfigurations()。加载的配置应在驱动程序中提供,以进行进一步处理。
例如:
第1批:运动学流中有0条记录-没有触发 loadConfiguration()
预先感谢。
解决方法
不确定我是否了解确切的要求。但是,根据问题描述和您在注释中的解释,这可能会起作用:
dstream.foreachRDD { rdd =>
val config = loadConfiguration() // executed at the driver
rdd.foreach { record =>
// do stuff here. e.g. config.get(). This code is executed at the worker.
}
}
这里要注意的重要一点是Config
类必须可序列化,因为它将从驱动程序发送给工作者。
此外,请注意,这可能是反模式,具体取决于您的用例。例如对于每一批,配置对象都会被序列化并发送给工作程序,这将增加网络开销,具体取决于配置对象的大小。
我强烈建议您检查forEachRDD
构造的推荐设计模式,并明智地选择您的方法。这是指向同一文件的链接:https://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。