想请问万能的老师以及各位大佬,
问题1.搭建集群后,hive或者spark sql在启动之后,总是要先show databases才能查表,若是直接use 数据库名,则显示database不存在,甚至是database ‘default’ not exist。
初步判断,首先mysql元数据库在远程机器节点,然后是因为企业的数据库设置了一些我不懂的限制,访问总是延迟的,甚至过一段时间就断开远程mysql的连接。
问题2.在第一点出现的情况下,安装hue4.2.0,整合了mysql,hive和sparksql,发现在hue可视化界面上,mysql展示一切正常,hive在左边列表能刷新展示存在什么数据库,而spark就不行,但是都不耽误在sql查询界面上进行使用,不知道为啥这样子。
初步判断,首先,hue是通过安装livy服务进行连接spark的jdbc,然后我觉得是对spark的支持还不够完善。
问题3.测试一个数据的时候,两张200W表跟一张1.8亿表join,最大表有35G大,同样的是--driver-memory=5G,--executor-memory=5G的情况下,使用spark-shell 的sparkstandalone模式能跑出来,而使用spark-sql on yarn和spark thrift on yarn就跑不出来,甚至调到driver-memory=10G,executor-memory=15G的情况下也跑不出来,爆内存溢出,或者spark.driver.maxResultSize不够。
这个我也没有判断了,只知道后两种可能是local模式了,但也不知道为什么一样配置跑不出来,该怎么才能跑出来呢?