如何解决如何在 GCP 上同时处理数据流两个批处理文件
我想同时处理两个文件从 gcp 到数据流。
但是,在这种情况下,我认为每次都会处理它,而不仅仅是一次。
e.g) 如何同时读取和处理 file1 和 file2(我是否必须将两个文件放在一个文件中,然后按照路径?)
如果您能给我一个很好的例子或建议,我将不胜感激。
谢谢。
解决方法
如果您从一开始就知道 2 个文件,您可以简单地拥有一个带有 2 个条目 (fileIO) 的管道
我不懂你的语言,但按照设计你可以做到这一点
PCollection1 PCollection2
| |
FileIO(readFile1) FileIO(readFile2)
| |
Transform file Transform file
| |
WriteIO(sink) WriteIO(sink)
您可以想象副输入、展平、分组……一切都取决于您的需求。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。