技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Spark的shuffle流程

时间：2022-09-04分类：Spark作者：编程之家原文地址AI导航网

1、shuffle流程演变

Spark 0.8及以前 Hash Based Shuffle
Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制
Spark 1.1 引入Sort Based Shuffle，但默认仍为Hash Based Shuffle
Spark 1.2 默认的Shuffle方式改为Sort Based Shuffle
Spark 2.0 Hash Based Shuffle退出历史舞台

2、Hash Based Shuffle

未引入Consolidation前
- 从MapTask到ReduceTask，每个MapTask会产生和reduce任务数量相等的小文件，也就是小文件的数量等同于 m*r，这种方式会产生大量的小文件，对文件系统压力很大，而且也不利于IO吞吐量
引入Consolidation后
- 把同一个core中运行的Map任务生成的文件合并到一个文件中，生成小文件的数量变为 core*r
- 同一个core中先后输出的文件，对应到同一个文件中不同的segment上，合并在一起称为FileSegment，形成一个ShuffleBlockFile

3、Sort Based Shuffle

map端的任务会根据分区id和key进行对数据进行排序，然后讲所有数据写入到一个文件中，并生成一个索引文件

4、Shuffle Writer的三种方式

Shuffle Writer有ByPassMergeSortShuffleWriter、UnSafeShuffleWriter、SortShuffleWriter
三种Shuffle Writer的选择方式：
- 1、首先判断map端是否开启mapSideCombiner，并且判断分区数量是否小于spark.shuffle.sort.byPassMerge.Threshold（默认为200），如果条件满足，使用ByPassMergeSortShuffleWriter
- 2、如果不满足上述两个条件的任意一个，判断serializer是否支持relocation，并且判断是否十四用aggregator和分区数是否小于16777215，如果条件都满足，使用UnSafeShuffleWriter，否则使用SortShuffleWriter

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：大数据应用技术实验下一篇：hadoop+zookeeper+yarn+spark高可用

相关推荐

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展API用来支持高吞吐、高容错的处理流式数据数据源可以是:Kafka、TCPsockets、Flume、Twitter等流式数据源处理数据:可以用SparkCore的算子map、reduce、join、window

作者：编程之家时间：2022-11-24

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这...

作者：编程之家时间：2022-11-11

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说...

作者：编程之家时间：2022-11-11

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“S...

作者：编程之家时间：2022-11-12

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数据分析”，在日常操作中，相信很多人在TSDB的数据怎么利用Hadoop/spark集群做数据分析问题上存在疑惑...

作者：编程之家时间：2022-11-12

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这

作者：编程之家时间：2022-11-12

Hadoop和Spark有什么不同

小编给大家分享一下Hadoop和Spark有什么不同，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们

作者：编程之家时间：2022-11-12

Hadoop和Spark的Shuffle过程有什么不同

这篇文章主要讲解了“Hadoop和Spark的Shuffle过程有什么不同”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习...

作者：编程之家时间：2022-11-12

基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的

本篇文章给大家分享的是有关基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获...

作者：编程之家时间：2022-11-12

Spark中foreachRDD、foreachPartition和foreach的区别是什么

这篇文章主要介绍“Spark中foreachRDD、foreachPartition和foreach的区别是什么”，在日常操作中，相信很多人在Spark中foreachRDD、foreachPartition和foreach的...

作者：编程之家时间：2022-11-12

小编推荐

苹果市值2025年有望达4万亿美元