如何解决DataProc 的处理时间超过 3 小时,比预期的要少 15 分钟
我已使用 PySpark 作业(读取和写入 Big Query - 数据量 - 约 10 GB)迁移了一部分 C 应用程序以在 DataProc 上进行处理。在本地数据中心运行 8 分钟的 C 应用程序在 Data Proc 上需要大约 4 小时。有人可以告诉我最佳的 Data Proc 配置吗?目前我正在使用以下一个:
--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-workers 2 --worker-machine-type n2-highmem-32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10
非常感谢有关优化 dataproc 配置的任何帮助。
谢谢, RP
解决方法
以下是一些关于 Dataproc 作业性能优化的好文章:Spark job tuning tips 和 10 questions to ask about your Hadoop and Spark cluster performance。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。