所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中

如何解决所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中

我最近向具有复制因子 2 (3.0.0) 的机架感知 HDFS 集群添加了几个新数据节点。

所有其他预先存在的节点都已分配给一个机架（名称如 /cabinet1/rack1、/cabinet1/rack2、/cabinet2/rack1、/cabinet2/rack2 等。 10 多个不同的机架）。这些新添加的节点未分配到任何机架，因此它们位于 /default/default 的默认机架中。

我们运行了一段时间的平衡器，用现有数据填充新节点，并使所有节点上使用的存储相等。一段时间后，随着新数据写入HDFS，我们注意到集群中存在严重的偏态，新增服务器中datanodes使用的存储容量比旧节点高出近10-15%，差异一直在增加。

在检查namenode日志后，我们观察到超过60%的第二个副本被放置在新节点中，如下所示，

INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_number1_number2,replicas=<not_yet_assigned_host_in_default_rack>:9866,<host_assigned_to_a_rack>:9866 for <file>

在两个不同节点上分配块的行，每个节点分配给非默认的不同机架，带有 NODE_TOO_BUSY 日志，如下所示，

INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_number1_number2,replicas=<host_assigned_to_rack1>:9866,<host_assigned_to_rack_2>:9866 for <file>
INFO org.apache.hadoop.hdfs.server.blockmanagement.BlockManagementPolicy: Not enough replicas was chosen. Reason:{NODE_TOO_BUSY=5}

然而，当使用

查询时，blk_number1_number2 的 <file> 似乎分配在 host_assigned_to_rack1 和 host_assigned_to_rack_2 中

hdfs fsck <file> -files -blocks -replicaDetails

dfs.block.replicator.classname 设置为默认值，即 org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault

写入 HDFS 的 DFSClient 都是 NONMAPREDUCE 并且不是数据节点的本地。

目前所有机架有3个节点，只有默认机架有5个节点。如果其中一个机架多 2 个节点（实际上比其他机架多 66% 的节点），则不应出现 10-15% 之类的偏斜。

这个问题有解决方案或解释吗？我找不到任何文档指出如果其中有节点，块放置会朝向或有利于默认机架。

任何帮助将不胜感激。

所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中

如何解决所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中

相关推荐