# spark优化01
# 22 Spark优化汇总
由于大多数Spark计算的内存性质,Spark程序可能会受到集群中任何资源(CPU,网络带宽或内存)的瓶颈。Spark优化主要是围绕着这几个瓶颈展开,优化方式包括序列化调优、内存调优等。
## 22.1 数据序列化
在任何分布式系...
# spark优化02
## 22.4 提高并行度(资源足够的情况下)
在执行任务过程中,Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。
Spark会自动设置以文件作为输入源的RDD的并行度...
# Spark的RDD编程01
# 8 .RDD
## 8.1 RDD设计背景
在实际应用中,存在许多迭代式计算,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来...
# Spark的RDD编程02
#### 9.2.1.2 键值对RDD操作
键值对RDD(pair RDD)是指每个RDD元素都是(key, value)键值对类型;
| **函数** | **目的** |
| -------------------- | --------------...
# Spark的RDD编程03
#### 9.2.1.5 join练习
以后在计算的过程中我们不可能是单文件计算,以后会涉及到多个文件联合计算
现在存在这样的两个文件
```shell
# 需求
# 存在这样一个表 movies电影表
# movie_id movie_name movie_types
# 存在一个评分表
#...
# spark-rdd的缓存和内存管理
# 10 rdd的缓存和执行原理
## 10.1 cache算子
cache算子能够缓存中间结果数据到各个executor中,后续的任务如果需要这部分数据就可以直接使用避免大量的重复执行和运算
与累加器(accumulator)。
累加器用来对信息进行聚合,相当于mapreduce中的counter;而广播变量用来高效分发较大的对象,相当于semijoin中的DistributedCache...
# spark序列化、GC和操作hbase
# 17 spark序列化使用
由于大多数Spark计算的内存性质,Spark程序可能会受到集群中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果内存资源足够,则瓶颈是网络带宽。
数据序列化,这对于良好的网络性能至关重要。
在Spa...
# spark-sql
## 20.1 SparkSQL的发展历程
### 20.1.1 Hive and Shark
SparkSQL的前身是Shark,是给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,它是运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘...
# spark Streaming01
## 21.1 spark streaming介绍
### 21.1.1 背景
随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,传统的 MapReduce 等批处理框架在某些特定领域,例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人...
何老师,为什么Phoenix的全局索引适合读多写少情况?本地索引适合读少写多情况?
> Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是由加州大学伯克利分校的AMP实验室所开源的类MapReduce的通用并行框架,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此计算速度更快。...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Spark教程(Spark3.x原理深入与实战调优,全方位讲解)](https://www.bilibili.com/video/BV1og4y1L7JB)
**线上笔记:**...
## 1.zookeeper的介绍
ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。分布式应用可以基于它实现更高级的服务,实现诸如同步服务、配置维护和集群管理或者命名的服务。
### 1.1 首先我们介绍一下...
## 5.zookeeper的使用命令
#### 3.1 ZooKeeper服务命令
1)启动ZK服务: sh bin/zkServer.sh start
2)查看ZK服务状态: sh bin/zkServer.sh status
3)停止ZK服务: sh bin/zkServer.sh stop
4)重启ZK服务: sh bin/zkServer.sh restart
---
```bash...
> Structured-Streaming是基于SparkSQL引擎构建的可扩展和容错流处理引擎。计算在同一个优化的SparkSQL引擎上执行。最后,系统通过检查点和预写日志确保端到端一次容错保证。简而言之,结构化流提供了快速、可扩展、容错、端到端的一次流处理。
**前置知识:
Linux...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】StructuredStreaming教程(一套课程全面了解spark流式计算的新篇章)](https://www.bilibili.com/video/BV1uX4y187ub)
*...
> ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。分布式应用可以基于它实现更高级的服务,实现诸如同步服务、配置维护和集群管理或者命名的服务。
**前置知识:
Linux基础、Java基础**
**课程视...
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**视频观看:**
[【海牛大数据】Zookeeper教程(原理、搭建、api开发全套讲解)](https://www.bilibili.com/video/BV11V4y1U7db)
**线上笔记:**
[【海...
###### 对于很多做实时计算云平台开发的企业来讲,FlinkSQL 是绕不开的技术,当然在FlinkSQL的实际使用中,也有很多不尽人意之处,最明显的就是FlinkSQL 无法对TTL进行细粒度设置,这将导致我整个作业都依赖于全局TTL,对于一些大状态的作业比(如包含了多流join, 连接...
网上的Hive教程,最多用到了五六张表,一段SQL就搞定了。
打个比方,现在传统数仓有张大宽表,两百多个字段,用了几十张ODS表。逻辑比较复杂,Oracle存储过程里分成十几个步骤,每段创建临时表处理。
如果要把这张宽表迁移到Hive,SQL要怎么实现啊?是不是也是在脚本...
我没有启动集群为什么我点开始实验 显示同一时间只能允许启动一个实验?
**职位要求:**
1. 熟练掌握:Oracle数据库查询,精通SQL语法;
2. 熟练使用DB2、GaussDB、Oracle中一种或多种数据库;
3. 熟悉CTM、Hadoop、Smartbi组件;
4. 常用ETL工具,能进行SQL调优;
5. 熟悉Linux、系统及基本命令,能用shell编程;
6. 能良好沟通和团队...
**招聘要求:**
1. 学信网可查专科及以上学历,至少2021年毕业
2. 有运维经验熟悉linux,掌握k8s、docker
3. 负责内容也是 CDN 业务处理、监控处理
4. 排班制,全年7x24轮;00~08 夜班、08~16 早班、16~00 中班,一个月最多一次夜班,夜班补助100元/次
备注:每个...
**招聘要求**
1. 具备一定的大数据、分布式基础与经验;
2. 了解大数据、云平台、云原生常见架构与技术栈,具备相关的实操经验 ,如(Kafka/Hadoop/HBase/Spark/Flink/starrocks /carbondata /kudu 等);
3. 熟悉大数据集部署、linux系统的配置、掌握shell 。
薪...