微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何公开数据集以读取到远程工作节点?

如何解决如何公开数据集以读取到远程工作节点?

我正在创建一个工作节点(主机)和一个主节点(VM)之间的连接,我通过指定虚拟机的 IP 到工作节点建立了一个连接,我在工作节点上启动了一个 Spark 客户端希望从主节点读取一些数据。 基本上我通过这些步骤来建立连接:

  1. spark-class org.apache.spark.deploy.master.Master 在虚拟机上

  2. spark-class org.apache.spark.deploy.worker.Worker spark://ip:port 在主机上运行工作程序

  3. spark-shell --master spark://ip:port 连接应用程序 到新创建的集群。

我的问题是,在不使用 HDFS 的情况下,要在 Spark 的独立模式下公开工作节点(VM)上的数据集以供主节点(主机)读取,需要执行哪些步骤? 提示

  1. 是否可以将数据集写入主节点中的 Hive 表(通过全局视图)并在远程工作节点中读取? 在这种情况下,当我尝试在主节点上创建全局视图以在远程工作节点上读取时,我收到一个与资源相关的错误,特别是当我读取数据集时,会出现一个警告说

初始作业未接受任何资源,请检查您的集群 UI 以 确保工人已注册并拥有资源。

当我在工作节点上创建全局视图时没有错误,但我无法读取主节点的视图。

  1. 或者,我正在考虑使用 --files 的选项 spark-submit 指定要与我的工作节点共享的文件,但是如何实现这一点?

  2. 或者需要 HDFS 来与需要访问它们的工作节点共享文件

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。