微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

以某种方式从在 EMR 上运行的 Spark 作业连接到 HDFS,它不会受到名称节点故障的影响HDFS 已启用 HA

如何解决以某种方式从在 EMR 上运行的 Spark 作业连接到 HDFS,它不会受到名称节点故障的影响HDFS 已启用 HA

  1. 我们使用 HDP2.7 和 hdfs,启用 HA。
  2. 我们在 EMR 集群上运行 Spark 作业,而 Hadoop 集群是 EMR 集群的远程集群。
  3. HDFS 用于检查点目录。
  4. 最初应用程序使用 url 连接到活动名称节点:hdfs://"活动名称节点主机名"/user/(url 在应用程序中使用活动名称节点主机名硬编码)
  5. 但有一种情况,活动名称节点出现故障,备用名称节点成为活动名称节点,在这种情况下,应用程序开始失败,因为硬编码名称节点不可用。
  6. 在这可以在 Hadoop 集群上运行的应用程序中通过在 HDFS url 中使用名称服务 (dfs.nameservices) 来处理,而不是使用活动的 IP 地址或主机名名称节点。
  7. 如何从在 EMR 集群上运行的 SPARK 作业处理此问题。在那里(在 EMR 集群上),我们尝试使用名称服务 ID 连接到 HDFS,但由于该服务不是任何节点的主机名,因此我们遇到了未知主机异常。
  8. 当应用程序在远程 EMR 集群上运行并且 HDFS 是远程的(以某种方式从 EMR 连接到 HDFS,它不会受到名称节点故障者的影响)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。