# 1 kerberos部署
## 1.1 kerberos概述
Kerberos是一个用于鉴定身份(authentication)的**协议**, 它采取对称密钥加密(symmetric-key cryptography),密钥不会在网络上传输。在Kerberos中,未加密的密码(unencrypted password)不会在网络上传输,因此攻击者...
> CDH大数据平台由Cloudera公司开发,有开源版本与商业版本,本课程基于6.3.2免费版进行讲解,大数据平台在国内各大企业中应用广泛,甚至开源版本在很多公司中都较为常见,在cdh平台中与各组件版本兼容性较好。是较为受欢迎的大数据平台之一。
**前置知识:
Linux基...
问题:
```
spark
.read
.option("fetchsize" , fetchsize)
.option( "partitionColumnoption" , partitionColumnoption)
.option( "lowerBound" , where条件的最小值 )
.option( “upperBound” , where条件的最大值 ).
.option( “numPartitions” , numPartition...
上代码:(伪责任链模式)
代码结构如下:

maven: 由于最近在研究JDBC连接器源码已经BinaryRowData 和 GenericRowData转换的源码,依赖有多余, 不需要这些依赖的可以自行删除
```
<pr...
> Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
**前置知识:
Li...
我首先介绍一个海牛部落是干什么的。他是一个注重实战学习的平台,有完整的学习笔记和视频,最不同的地方是我们还提供了可以<font color="red">提手练习</font>的云平台,可以通过我们海牛提供的云平台快速练习各种组件的实操,真正做到理论和实践相结合,就拿非常吃资...
> 云平台给每位用户提供“8核CPU 10G内存”的永久免费资源
> 可以在此基础上去配置资源功能中使用牛币兑换自己想要的资源

#### 牛币可以通过做任务或者充值获得
* 充值中心可购买任...


> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Hadoop教程(Hadoop3.x从部署到优化全套讲解)](https://www.bilibili.com/video/BV1ed4y177zf)
**线上笔记:**
[【海...
**视频观看:**
[【海牛大数据】Java教程(10天轻松学会java)](https://www.bilibili.com/video/BV1Lx4y1G7Yr)
**线上笔记:**
[【海牛大数据】Java 教程](https://www.hainiubl.com/topics/76136)
**笔记下载:**
https://www.hainiubl.com/topics/76638
**笔记下载:**
https://www.hainiubl.com/topics/76638
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Hadoop教程(Hadoop3.x从部署到源码分析全套讲解)](https://www.bilibili.com/video/BV1ND4y1e7pQ)
**线上笔记:**
[...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Sqoop教程(命令详解、各组件融合、实战案例)](https://www.bilibili.com/video/BV1724y137XU)
**线上笔记:**
[【海...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Scala教程(从基础语法到函数式编程再到网络编程,全套保姆式教学)](https://www.bilibili.com/video/BV1Cs4y1b7JC)
**...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Mysql教程(从原理解析到在线实战,踩破技术天花板)](https://www.bilibili.com/video/BV1Ve4y1G7A1)
**线上笔记:**...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Linux教程(装什么虚拟机啊太OUT,直接练起)](https://www.bilibili.com/video/BV1K8411J7qV)
**线上笔记:**
[【海牛...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Kafka教程(Kafka3.3.2原理、安装、应用场景、源码解析、高级优化、实战案例应有尽有)](https://www.bilibili.com/video...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Hive 教程(Hive3.x 从基础到优化到面试一套全搞定)](https://www.bilibili.com/video/BV1584y187W4)
**线上笔记:**...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】HBase教程(HBase2.x从原理渗透到应用实战全面讲解)](https://www.bilibili.com/video/BV1Ud4y1H7At)
**线上笔记:**...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Flume 教程(学 Flume 看这个一套就够了,从基础到扩展到实战案例到组件配合全都有)](https://www.bilibili.com/video/B...
**视频观看:**
[【海牛大数据】大数据2022最新java版Flink教程-青牛老师倾力打造](https://www.bilibili.com/video/BV1bK411G7qx)
**笔记下载:**
https://www.hainiubl.com/topics/76638
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】CDH 教程(多节点分布式完整安装、各组件整合、kerberos 与 sentry 权限管理)](https://www.bilibili.com/video/BV1jY4y...
> 针对部分用户有云平台上public目录中软件的下载需求,现已上传到百度网盘可自行选择下载
云主机目录如下:

**百度网盘下载地址:**
https://pan.baidu.com/s/1ZtqsaE_n7aH29GAXjkb...
# watermark和join
## 1.structured操作
查询操作分为以下几种类型
- 1.弱类型操作如:select`, `where`, `groupBy 使用api的方式
- 2.强类型操作如:map`, `filter`, `flatMap 使用方法的形式操作
- 3.弱类型中还有不仅仅可以使用sql还可以使用字段形式操作...
# structured-streaming概念和数据源
## 1.介绍
structured-streaming是基于Spark SQL引擎构建的可扩展和容错流处理引擎。能够以对静态数据表示批处理计算的方式来表示流计算。Spark SQL引擎将负责增量和连续地运行它,并在流数据继续到达时更新最终结果。可以使...
# sink部分
## 1.查询限制
- 流数据集尚不支持多个流聚合(即流DF上的聚合链)。
- 流式数据集不支持限制和获取前N行。
- 不支持流数据集上的distinct操作。
- 只有在complete输出模式下才支持排序操作。
- count()-无法从流数据集中返回单个计数。...
# Spark的背景以及安装和部署
## 1.1 Spark产生的背景
MapReduce的局限性:
1)仅支持Map 和 Reduce 两种操作;
2)MapReduce多个任务的中间结果落地磁盘,不能充分利用内存,任务运行效率低;
3)适合批处理,不适合实时性要求高的场景;
4)程...
# sparkStreaming02
### 21.4.2 updateStateByKey
java updateStateByKey方法 使用代码示例:

V2:上次数据
返回结果本次汇总数据,也就是下...
# sparkStreaming03
## 21.5.sparkStreaming接入kafka
### 21.5.1 spark-streaming-kafka
kafka回顾

准备环境
![file](http://www.hainiubl.com/u...