spark里面有两种内存管理模型,shuffle交换的内存空间属于哪一部分,看了一些资料没看懂
用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘
@青牛 那应该占用的是jvm的内存部分,为啥都不推荐把它调大呢?比如说1g。或者说,为啥spark这里shuffle不用全内存实现?
@东兴 file.buffer 这个已经到了数据落地的时候了 不用占那么多内存 io一般都是缓冲区策略
`单行代码`
关注海汼部落