如题
Spark和flink还有 其他分布式计算系统都有一种切分的思想:把一个超大的数据集,分成N个小堆,找M个执行器(M < N),各自拿一块或多块数据慢慢玩,玩出结果了再收集在一起,这就算执行完啦。spark无论处理什么数据先整成一个拥有多个分块的数据集再说,这个数据集就叫RDD
`单行代码`
关注海汼部落技术社区