1.你们最大的表多大?
2.1小时才能跑完的数据,怎样变成20分钟?
3.hadoop和spark的区别还是联系?
4.你们是hive可视化工具是用什么的?就是说hive sql在哪写?在linux上的话你们怎么测试?一个很长的sql,几百行,你们也直接在linux上运行吗?
5.hive sql和spark sql的区别?
6.spark sql 一定比hive sql快吗?
7.说说spark rdd的弹性?
8.造成hive数据倾斜的原因?
9.hive怎么优化?
10.资源充足的情况下,hive跑不动,什么原因?
11.hive自定义函数得步骤?
12.你用自定义函数转换过什么业务?
13.hive sql怎么走mapreduce?
14.你mapreduce都写了什么函数?
15.persist和cache区别?
16.数仓从一个分层到下一个分层你们用的什么?