hadoop的shuffle阶段排序的作用是什么呢? 在spark中的shuffle是不需要进行排序的,同样地在hadoop中不进行排序也能对数据进行分组,如果在业务上不需要排序,那么是否可以去掉hadoop中的排序呢?
不用全局排序的时候自然不需要排序 但是具体场景中很少能避免全局排序 所以框架设计的思路是提高shuffle的性能 而不是去掉shuffle
`单行代码`
关注海汼部落