微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何处理“无法在300秒内执行广播”?

如何解决如何处理“无法在300秒内执行广播”?

我正在尝试使构建正常工作,并且其中一个阶段间歇性地失败,并出现以下错误

printf.S

我应该如何处理此错误

解决方法

首先,让我们谈谈该错误的含义。

摘自Spark官方文档(http://spark.apache.org/docs/latest/programming-guide.html#broadcast-variables):

Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used,for example,to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

根据我的经验,广播超时通常在输入数据集之一的分区不佳时发生。建议您查看数据集的分区,并确保它们已正确分区,而不是禁用广播。

我使用的经验法则是将数据集的大小(以MB为单位)除以100,然后将分区数设置为该数。由于HDFS块大小为125 MB,我们希望将文件溢出到125 MB左右,但是由于它们不能很好地分割,我们可以用较小的数字进行划分以获得更多分区。

主要是非常小的数据集(〜

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。