如何解决Spark DataFrame的最小分区
有人可以帮助我了解如何在读取Spark SQL中的每个文件时更改最大分区字节配置,以启用最少2个分区(因此,从给定数据文件读取时,每个数据帧2至少应具有4个分区) ?
解决方法
'maxPartitionBytes'选项为您提供分区中存储的字节数。默认值为 128 MB 。如果您可以根据必须加载的文件大小来控制默认容量,则最小分区数将相应更改。 例如,如果您加载90 MB的文件,则将创建1个分区。如果您使用以下功能更改配置,
SparkConf()。set(“ spark.sql.files.maxPartitionBytes”,“”)
,然后将字节数更改为52428800(50 MB), 即SparkConf()。set(“ spark.sql.files.maxPartitionBytes”,52428800) 那么分区大小的最大容量将减小,并将创建2个分区。
在方括号中,您必须将存储量设置为“ 字节”。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。