请问一下如何基于集群Python3搭建pyspark集群on yarn模式?
问题1:在集群搭建好yarn和hadoop后,需要每台都装同版本的Python3以及相同的依赖包,如pandas吗。
问题2:搭建好后如何启动pyspark进入yarn模式,如果可以的话能否在jupyter调用,而非submit模式。
现在遇到的问题,我现在的情况是集群中某几台机器装了多个版本的python3,导致了一些权限以及路径等报错,怎么样在启动时指定某台服务器的解释器路径?现在yarn client模式报错权限错误,其实应该是python解释器错了
比如在node1中有两个版本的python3(/a/python3和/b/python3)如何在程序中指定worker的解释器路径?