如何解决如何在pyspark中提交tar.gz文件
我处于客户端部署模式,我想提交一个包含tar.gz
的应用程序,其中包含运行时,代码和库。
目的不取决于特定python运行时的spark群集(例如spark群集具有python 3.5版本,而我的代码需要3.7版本)或未安装在群集上的库。
解决方法
使用venv为pyspark作业使用python的虚拟环境版本。
在设置虚拟端口后命令:
spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>
看看:Using VirtualEnv with PySpark
,只需在 Python 中使用它
spark.sparkContext.addPyFile("module.zip")
或者你可以这样做
spark-submit --py-files module.zip yourapp.py
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。