我们在YARN Cluster上运行了一个Spark Streaming应用程序.
它接收来自Kafka主题的消息.
实际上我们的处理时间超过了批处理间隔.
Batch Interval : 1 Minute Processing Time : 5 Minutes
我想知道,如果在处理时间之间收到一些数据会发生什么,数据是否会在内存中可用,直到处理结束.或者它将在后续数据提取中被覆盖?
我们使用Direct Streaming方法从Kafka主题获取数据.
我应该使用基于Window的操作吗?例如,如果我的窗口长度为5分钟,滑动间隔为2分钟,批次间隔为1分钟,它会工作吗?因为我们不能在我们的应用程序中丢失任何数据.
解决方法
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。