本身最近在做Spark相关查询优化问题的研究,请问Spark sql做查询的时候,i/o扫描 vs join 哪个更耗时,查询的性能瓶颈具体在哪,希望能给出具体的时间分析?join等值连接 相比 i/o扫描差距有多大?
补充一下:我说的join物理实现是sort merge join,是两个大表直接的等值连接
这个你可以自己拿两个表测一下 具体情况具体分析
`单行代码`
关注海汼部落