微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将作业提交到指定多个输入 s3 位置的 AWS EMR

如何解决将作业提交到指定多个输入 s3 位置的 AWS EMR

我在 s3 上启动并运行了一个 emr hbase 集群。我在 s3 中有多个文件夹,需要上传到 emr。我使用 aws lambda 函数提交作业。以下是为 1 个 s3 文件夹提交 emr 作业的代码

step = {
    'Name':'My step','ActionOnFailure': 'CONTINUE','HadoopJarStep': {
        'Jar': "/usr/lib/phoenix/phoenix-4.14.3-HBase-1.4-client.jar",'MainClass': "org.apache.phoenix.mapreduce.CsvBulkLoadTool",'Args': [
            '--table',table_name,'--input','s3://s3location1/','--zookeeper',master_dns
        ]
     }
}
emr_client = boto3.client('emr')
response = emr_client.add_job_flow_step(
           JobFlowId=cluster_id,Steps=[step])

对于 s3location1,作业运行良好。但是现在我有多个 s3 位置,每个位置都有不同的名称,并且它们没有共同的前缀。我需要在上面的 1 个单步中为这些文件夹提交作业。如何在“--input”下方提及文件夹的别名?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。