企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持知识库和私有化部署方案 广告
**1. 为什么需要Shuffle** 因为需要将具有某种共同特征的一类数据汇聚到一个节点上进行计算。 <br/> **2. 什么是Shuffle** 与 MapReduce 的 Shuffle 类似,即在分区之间重新分配数据,将数据打乱重新汇聚到不同节点的过程。 <br/> map、flatMap等窄依赖算子不需要在分区之间,或节点之间进行数据传输,所以没有产生Shuffle过程;而向reduceByKey这样的宽依赖算子,需要将所有相同的key进行聚合,所以是需要在各个分区,或节点之间传输数据的,所以会产生Shuffle过程。