如何解决ModuleNotFoundError:在Cloudera QuickStart VM cdh5.5.0,Spark 2.4.7
我正在学习在具有能够运行Hadoop的硬件的个人计算机上使用Spark。配置如下:Cloudera CDH 5.5.0 w / Cloudera Quickstart,Spark 2.4.7,JDK1.8.0_181,Hadoop 2.6.0,Python 3.6.9运行Python脚本(从YouTube上的Udemy视频复制)时,我遇到了并修复了类似的在线论坛讨论后的一些错误。但是我找不到以下错误的解决方案。
顺便说一句,我确实知道如何在正常的非虚拟环境中使用Python进行pip安装或conda安装软件包。但是当我进入VM的Linux时,我什至不知道从哪里开始。我也刚刚在我的VM上安装了Python 3.6.9,它甚至在提示符下显示为Python版本。但是我怀疑default(?)PATH存在问题,因为我的“ / usr / lib”目录在列表中仅显示“ python2.6”子目录。但是,与最新的Python安装相关的所有文件都在'/ opt / rh / rh-python36 / root / usr / bin / python'中,而我没有明确的偏好/选择。就像Windows环境一样,我假设Linux环境也可以允许拥有两个版本的Python,并且用户可以通过修改PATH变量指向的位置来在两个版本之间轻松切换。我想将Python3设置为默认环境。
我是新手,我们将不胜感激一些手工风格的建议。任何及时的解决方案/建议将不胜感激。预先感谢您的宝贵时间。
[root @ quickstart Spark]#spark-submit MovieRecommendationALSEngineSparkDF.py
14/10/20 10:04:08 WARN NativeCodeLoader:无法为您的平台加载本地Hadoop库...使用内置Java类(如果适用)
回溯(最近通话最近):
中的文件“ /home/cloudera/Spark/MovieRecommendationALSEngineSparkDF.py”,第45行from pyspark.ml.recommendation import ALS
第
行中的文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/init.py”,第22行“ 中的文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/base.py”,第24行
在
中,文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/param/init.py”,第26行ModuleNotFoundError:没有名为“ numpy”的模块
log4j:WARN找不到记录器(org.apache.spark.util.ShutdownHookManager)的附加程序。
log4j:WARN请正确初始化log4j系统。
log4j:WARN有关更多信息,请参见http://logging.apache.org/log4j/1.2/faq.html#noconfig。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。