微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在 GCP 上同时处理数据流两个批处理文件

如何解决如何在 GCP 上同时处理数据流两个批处理文件

我想同时处理两个文件从 gcp 到数据流。

我认为如果在侧面输入中再有一个文件是可能的。

但是,在这种情况下,我认为每次都会处理它,而不仅仅是一次。

e.g) 如何同时读取和处理 file1 和 file2(我是否必须将两个文件放在一个文件中,然后按照路径?)

如果您能给我一个很好的例子或建议,我将不胜感激。

谢谢。

解决方法

如果您从一开始就知道 2 个文件,您可以简单地拥有一个带有 2 个条目 (fileIO) 的管道

我不懂你的语言,但按照设计你可以做到这一点

     PCollection1                        PCollection2
          |                                   |
   FileIO(readFile1)                   FileIO(readFile2)
          |                                   |
    Transform file                       Transform file
          |                                   |
    WriteIO(sink)                        WriteIO(sink)

您可以想象副输入、展平、分组……一切都取决于您的需求。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。