如题
可以利用现成的hadoop集群,不用再单独搭建一套spark集群,已提高集群的利用率另外hadoop集群都有现成的hdfs,相比单独搭建spark集群去读hadoop的hdfs,能更好的实现任务本地化,spark功能很多唯独没提供像hdfs的分布式存储。
请问,任务本地化是什么意思呀?
就是在集群中数据所在的机器执行你的任务,这样就不用耗费网络资源了
`单行代码`
关注海汼部落技术社区