如何解决Kudu的insertIgnorerows方法仅在spark中使用一个任务
我第一次在Spark Scala中使用kudu。我使用spark在kudu的表中插入数据并检查其性能,我使用了1M条记录。以下是spark的详细信息:- 火花版本:-1.6 Kudu版本:-1.5.0-cdh5.13.0 总核心数:-16 执行者:-3 每个执行者的核心:-4
现在,从Spark UI中我看不到。为每个动作创建的任务。一切都很好并且处于分布式模式,但是在将数据插入KUDU表中时,它仅使用1个任务。正如我在kudu内部实现中看到的那样,它使用foreachpartition以及kudu sync spark分区和表分区。现在,我很困惑,因为在创建表时我使用了按哈希分区,例如:-按分区(按月)(月)分区4。因此,即使kudu将spark分区与kudu表分区进行同步,它也应该使用4任务,为什么只使用4 1项任务。并且由于火花作业的这种性能降低。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。