微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Pyspark 纱线集群提交错误无法运行 Python 程序

如何解决Pyspark 纱线集群提交错误无法运行 Python 程序

我正在尝试使用 pandas udf 提交 pyspark 代码(使用 fbprophet...) 它在本地提交中运行良好,但在集群提交中出错,例如

Job aborted due to stage failure: Task 2 in stage 2.0 Failed 4 times,most recent failure: Lost task 2.3 in stage 2.0 (TID 41,ip-172-31-11-94.ap-northeast-2.compute.internal,executor 2): java.io.IOException: Cannot run program
 "/mnt/yarn/usercache/hadoop/appcache/application_1620263926111_0229/container_1620263926111_0229_01_000001/environment/bin/python": error=2,No such file or directory

我的 spark-submit 代码

PYSPARK_PYTHON=./environment/bin/python \
spark-submit \
--master yarn \
--deploy-mode cluster \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python     \
--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python     \
--jars jars/org.elasticsearch_elasticsearch-spark-20_2.11-7.10.2.jar \
--py-files dependencies.zip   \
--archives ./environment.tar.gz#environment \
--files config.ini \
$1

我通过 conda pack、dependencies.zip 作为我的本地包制作了 environment.tar.gz 和 config.ini 加载设置

有没有办法处理这个问题?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。