大数据架构开发中,hadoop系列,spark系列和go,docker系列,是什么关系?
我用python写个计算+docker+k8/swarm+分布式文件系统 达到的效果和hadoop系列有什么区别?
大数据架构开发中,hadoop系列,spark系列和go,docker系列,是什么关系?
我用python写个计算+docker+k8/swarm+分布式文件系统 达到的效果和hadoop系列有什么区别?
用python加上docker也能达到分布式计算的效果,但是需要自己解决的问题相比于hadoop和spark系列要麻烦的多,比如怎么对文件的均衡切分,怎么聚合相同的key值,怎么对数据进行join操作等。另外除了写程序spark和hadoop系列还能使用sql的形式对大数据进行计算。