微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

CoGroupByKey总是在大数据PythonSDK上失败

如何解决CoGroupByKey总是在大数据PythonSDK上失败

我大约输入了4000个文件(每个平均约7MB)。

当数据大小达到约4GB时,我的管道总是在步骤CoGroupByKey上失败。 我试图限制只使用300个文件,然后它运行得很好。

万一失败,GCP数据流上的日志仅显示

Workflow Failed. Causes: S24:CoGroup Geo data/GroupByKey/Read+CoGroup Geo data/GroupByKey/GroupByWindow+CoGroup Geo data/Map(_merge_tagged_vals_under_key) Failed.,The job Failed because a work item has Failed 4 times. Look in prevIoUs log entries for the cause of each one of the 4 failures. For more information,see https://cloud.google.com/dataflow/docs/guides/common-errors. The work item was attempted on these workers: 
  store-migration-10212040-aoi4-harness-m7j7
      Root cause: The worker lost contact with the service.,store-migration-xxxxx
      Root cause: The worker lost contact with the service.,store-migration-xxxxx
      Root cause: The worker lost contact with the service.

我在Logs Explorer中浏览所有日志。除上述以外,没有其他任何指示错误的地方,甚至我的logging.infotry...except代码也是如此。

认为这与实例的内存有关,但是我没有深入研究这个方向。因为这就是我在使用GCP服务时不需要担心的事情。

谢谢。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。