如何解决是否可以忽略Spark中失败的任务
我有一些大型数据集,其中一些记录导致UDF崩溃。一旦处理了此类记录,任务将失败,从而导致作业失败。这里的问题是本机的(我们在JNA中使用本机的fortran库),所以我无法在UDF中捕获它们。
我想要的是一种容错机制,该机制允许我跳过/插入/将不良分区/任务列入黑名单,以使我的spark-app不会失败。
有没有办法做到这一点?
我唯一能想到的就是在foreach循环中处理小块数据:
val dataFilters: Seq[Column] = ???
val myUDF: UserDefinedFunction = ???
dataFilters.foreach(filter =>
try {
ss.table("sourcetable")
.where(filter)
.withColumn("udf_result",myUDF($"inputcol"))
.write.insertInto("targettable")
}
这不是理想的,因为没有火花。处理少量数据的速度很慢。例如。输入表被读取多次
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。