spark每个stage的分片数是否一致
回答
般若回答
问题分析:
1、sparkRDD分片的概念、linage的概念、shuffle的概念理解不清晰
2、某些学生看视频太快,吸收效果不好
问题答案:
1、分区是指将一个数据集下划分的多个子集,由不同的机器或者同一台机器不同的core来管理
2、读取hdfs文件得到的RDD分区数默认与文件block数量一致
3、可以手动对RDD进行重新分区
4、窄依赖关系,子RDD分区与父RDD分区一致,经shuffle得到的子RDD由分区器(new HashPartitioner(2))决定。
(1)