ModuleNotFoundError：在Cloudera QuickStart VM cdh5.5.0，Spark 2.4.7

如何解决ModuleNotFoundError：在Cloudera QuickStart VM cdh5.5.0，Spark 2.4.7

我正在学习在具有能够运行Hadoop的硬件的个人计算机上使用Spark。配置如下：Cloudera CDH 5.5.0 w / Cloudera Quickstart，Spark 2.4.7，JDK1.8.0_181，Hadoop 2.6.0，Python 3.6.9运行Python脚本（从YouTube上的Udemy视频复制）时，我遇到了并修复了类似的在线论坛讨论后的一些错误。但是我找不到以下错误的解决方案。

顺便说一句，我确实知道如何在正常的非虚拟环境中使用Python进行pip安装或conda安装软件包。但是当我进入VM的Linux时，我什至不知道从哪里开始。我也刚刚在我的VM上安装了Python 3.6.9，它甚至在提示符下显示为Python版本。但是我怀疑default（？）PATH存在问题，因为我的“ / usr / lib”目录在列表中仅显示“ python2.6”子目录。但是，与最新的Python安装相关的所有文件都在'/ opt / rh / rh-python36 / root / usr / bin / python'中，而我没有明确的偏好/选择。就像Windows环境一样，我假设Linux环境也可以允许拥有两个版本的Python，并且用户可以通过修改PATH变量指向的位置来在两个版本之间轻松切换。我想将Python3设置为默认环境。

我是新手，我们将不胜感激一些手工风格的建议。任何及时的解决方案/建议将不胜感激。预先感谢您的宝贵时间。

[root @ quickstart Spark]＃spark-submit MovieRecommendationALSEngineSparkDF.py

14/10/20 10:04:08 WARN NativeCodeLoader：无法为您的平台加载本地Hadoop库...使用内置Java类（如果适用）

回溯（最近通话最近）：

中的文件“ /home/cloudera/Spark/MovieRecommendationALSEngineSparkDF.py”，第45行

from pyspark.ml.recommendation import ALS

第

行中的文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/init.py”，第22行

“ 中的文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/base.py”，第24行

在

中，文件“ /usr/local/spark/python/lib/pyspark.zip/pyspark/ml/param/init.py”，第26行

ModuleNotFoundError：没有名为“ numpy”的模块

log4j：WARN找不到记录器（org.apache.spark.util.ShutdownHookManager）的附加程序。

log4j：WARN请正确初始化log4j系统。

log4j：WARN有关更多信息，请参见http://logging.apache.org/log4j/1.2/faq.html#noconfig。

ModuleNotFoundError：在Cloudera QuickStart VM cdh5.5.0，Spark 2.4.7

如何解决ModuleNotFoundError：在Cloudera QuickStart VM cdh5.5.0，Spark 2.4.7

相关推荐