微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无法将 HDFS 数据复制到 S3 存储桶

如何解决无法将 HDFS 数据复制到 S3 存储桶

我有一个similar question asked before 相关的问题。我无法将数据从 HDFS 复制到 IBM Cloud 中的 S3 存储桶。

我使用命令:hadoop distcp hdfs://namenode:9000/user/root/data/ s3a://hdfs-backup/

我在 /etc/hadoop/core-site.xml 文件添加了额外的属性

<property>
  <name>fs.s3a.access.key</name>
  <value>XXX</value>
</property>

<property>
  <name>fs.s3a.secret.key</name>
  <value>XXX</value>
</property>

<property>
  <name>fs.s3a.endpoint</name>
  <value>s3.eu-de.cloud-object-storage.appdomain.cloud</value>
</property>

<property>
  <name>fs.s3a.multipart.size</name>
  <value>104857600</value>
</property>

我收到以下错误消息:

root@e05ffff9bac9:/etc/hadoop# hadoop distcp hdfs://namenode:9000/user/root/data/ s3a://hdfs-backup/
2021-04-29 13:29:36,723 ERROR tools.distCp: Invalid arguments:
java.lang.IllegalArgumentException
        at java.util.concurrent.ThreadPoolExecutor.<init>(ThreadPoolExecutor.java:1314)
        at java.util.concurrent.ThreadPoolExecutor.<init>(ThreadPoolExecutor.java:1237)
        at org.apache.hadoop.fs.s3a.S3AFilesystem.initialize(S3AFileSystem.java:280)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3303)
        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:124)
        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3352)
        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3320)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:479)
        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:365)
        at org.apache.hadoop.tools.distCp.setTargetPathExists(distCp.java:240)
        at org.apache.hadoop.tools.distCp.run(distCp.java:143)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
        at org.apache.hadoop.tools.distCp.main(distCp.java:441)
Invalid arguments: null

使用 AWS CLI 连接到 S3 存储桶工作正常。预先感谢您的帮助!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。