Spark 对于大量数据sort之后,每个partition上的数据都是有序的,但想要得到全局有序必须要做collect操作,但driver的内存不够怎么办,有什么办法可以将排序完的数据有序的输出到磁盘或者hdfs上么?
自定义一个partitioner,然后再sort以后将rdd直接存储到hdfs上,别collect到driver上
`单行代码`
关注海汼部落技术社区