按道理spark可以动态计算shufflemaptask输出的总size,然后可以指定一个参数来表示每个reducer平均处理的数据量,然后总size除以这个参数就可以得到reducer个数,所以这个参数目前有吗?好像adaptive execution不支持。
参数不支持 可以梳理下reducer的计算逻辑 通过自定义分区器的方法间接修改
`单行代码`
关注海汼部落