如何解决在纱线上运行火花提交时,参考cloudera簇罐
我是Spark
的新手。当前,使用Spark batch
和Java
构建工具来创建Maven
作业。我们正在使用Cloudera
分发和yarn
作为集群管理器。
在pom.xml中,我放置了spark
的依赖项,例如spark-core
,spark-sql
,spark-yarn
等。
我不想创建一个胖的jar,它将spark/hadoop
个jar与我的应用程序jar捆绑在一起,从而增加jar的大小。我认为正确的方法是使用群集jars路径。但是正如我说的,我对Spark
还是陌生的,所以不完全知道该怎么做吗?
我将以spark-submit
的身份运行我的应用程序jar,但是在命令中如何指定hadoop/spark
相关的群集jar,以便我的应用程序可以在yarn
群集上成功运行。
如果有人指导我,这将非常有帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。