海牛部落 spark 系列教程（四十一）：spark-sql

教程 ⋅ 青牛 ⋅ 最后回复由江南一叶 20344 阅读

1.hive vs spark-sql

为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生，它是运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，运行效率底，spark sql而是采用内存存储可以减少大量的中间磁盘落地数据。相比hive速度能提高10到100倍。

file

2.集群配置

拷贝hive的配置文件到spark conf的目录下，并删除不必要的信息，增加thrift server配置

file

file
修改conf/hive-site.xml 中的 “hive.metastore.schema.verification”值为false即可解决 “Caused by: MetaException(message:Version information not found in metastore.)

减少日志输出

回复帖子，然后刷新页面即可查看隐藏内容

版权声明:原创作品,允许转载，转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落－青牛,http://hainiubl.com/topics/194

回复数量: 49

王先森

学习中
FLASH

學習
爱德华的早餐

学习
奥斯卡影帝

spark sql
jiaozongben

爱学习
luckytz11

学习
Rudolph

学习
瑬氓

学习
流光

学习
清风

学习
海纳百川

学习
蝶儿

xuexi
jonyken

谢谢
zhenzihan

666

marsotian

学习

«
1
2
3
4
»

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter