刚接触Spark,论文中提到内存计算。但是经常用到的Shuffle过程仍然把中间数据放到硬盘中。实际在测试中,利用Shark(Spark on Hive)比Hive真没提高多少效率(没有经过很多优化)。现在持有Spark取代Hadoop观点的人越来越多了,Spark的确有这么光明吗?
刚接触Spark,论文中提到内存计算。但是经常用到的Shuffle过程仍然把中间数据放到硬盘中。实际在测试中,利用Shark(Spark on Hive)比Hive真没提高多少效率(没有经过很多优化)。现在持有Spark取代Hadoop观点的人越来越多了,Spark的确有这么光明吗?
迭代运算不Shuffle的时候速度快,当运算数据大于内存时,数据频繁写入磁盘,这时候实际上和hadoop差不多了。所以spark替代hadoop不是绝对的,只是在特定场景