Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是由加州大学伯克利分校的AMP实验室所开源的类MapReduce的通用并行框架,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此计算速度更快。
前置知识:
Linux基础、Scala基础、Java基础
课程视频链接:https://www.bilibili.com/video/BV1og4y1L7JB
配套笔记课件地址:
- Spark 的背景以及安装和部署:http://www.hainiubl.com/topics/76290
- Spark 的 RDD 编程 01:http://www.hainiubl.com/topics/76295
- Spark 的 RDD 编程 02:http://www.hainiubl.com/topics/76296
- Spark 的 RDD 编程 03:http://www.hainiubl.com/topics/76297
- RDD 的缓存和内存管理:http://www.hainiubl.com/topics/76298
- shuffle 和共享变量:http://www.hainiubl.com/topics/76299
- 序列化、GC 和操作 hbase:http://www.hainiubl.com/topics/76300
- spark-sql:http://www.hainiubl.com/topics/76301
- spark Streaming01:http://www.hainiubl.com/topics/76302
- sparkStreaming02:http://www.hainiubl.com/topics/76291
- sparkStreaming03:http://www.hainiubl.com/topics/76292
- spark 优化 01:http://www.hainiubl.com/topics/76293
- spark 优化 02:http://www.hainiubl.com/topics/76294
Word版笔记下载地址:http://www.hainiubl.com/topics/76306
本课程中使用的海汼部落实验室大数据实操云平台使用教程:https://www.bilibili.com/video/BV12W4y1p7Fr
本帖已被设为精华帖!