微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark Streaming进度分区独立

如何解决Spark Streaming进度分区独立

在一种情况下,我们已按帐号对输入的Kafka主题进行了划分。每个分区都直接写入数据库,并且彼此之间没有依赖性。

当前,即使一个分区在5秒钟内完成了处理,它也必须等待最慢的分区完成才能开始处理下一批。假设最慢的分区需要30秒,然后在5秒钟内完成的分区必须保持空闲状态25秒钟。

有没有一种方法可以设置微型批处理,在该批处理中我们依次处理每个分区并且独立于其他分区?在我的较早版本中,例如,在5秒内完成批处理的分区应该立即提取一个批处理,而不要闲置25秒。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。