关于 “” 的搜索结果, 共 2411 条






12.spark 优化 01 by DER DER

https://hainiubl.com/topics/76293? 2023-04-15 ⋅ 1767 ⋅ 0 ⋅ 0
# spark优化01 # 22 Spark优化汇总 由于大多数Spark计算的内存性质,Spark程序可能会受到集群中任何资源(CPU,网络带宽或内存)的瓶颈。Spark优化主要是围绕着这几个瓶颈展开,优化方式包括序列化调优、内存调优等。 ## 22.1 数据序列化 在任何分布式系...

13.spark 优化 02 by DER DER

https://hainiubl.com/topics/76294? 2023-04-15 ⋅ 1734 ⋅ 0 ⋅ 0
# spark优化02 ## 22.4 提高并行度(资源足够的情况下) 在执行任务过程中,Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度...

2.Spark 的 RDD 编程 01 by DER DER

https://hainiubl.com/topics/76295? 2023-04-15 ⋅ 2437 ⋅ 0 ⋅ 0
# Spark的RDD编程01 # 8 .RDD ## 8.1 RDD设计背景 在实际应用中,存在许多迭代式计算,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来...

3.Spark 的 RDD 编程 02 by DER DER

https://hainiubl.com/topics/76296? 2023-04-15 ⋅ 2169 ⋅ 1 ⋅ 0
# Spark的RDD编程02 #### 9.2.1.2 键值对RDD操作 键值对RDD(pair RDD)是指每个RDD元素都是(key, value)键值对类型; | **函数** | **目的** | | -------------------- | --------------...

4.Spark 的 RDD 编程 03 by DER DER

https://hainiubl.com/topics/76297? 2023-04-15 ⋅ 1909 ⋅ 2 ⋅ 0
# Spark的RDD编程03 #### 9.2.1.5 join练习 以后在计算的过程中我们不可能是单文件计算,以后会涉及到多个文件联合计算 现在存在这样的两个文件 ```shell # 需求 # 存在这样一个表 movies电影表 # movie_id movie_name movie_types # 存在一个评分表 #...

5.RDD 的缓存和内存管理 by DER DER

https://hainiubl.com/topics/76298? 2023-04-15 ⋅ 1997 ⋅ 0 ⋅ 0
# spark-rdd的缓存和内存管理 # 10 rdd的缓存和执行原理 ## 10.1 cache算子 cache算子能够缓存中间结果数据到各个executor中,后续的任务如果需要这部分数据就可以直接使用避免大量的重复执行和运算 ![file](http://www.hainiubl.com/uploads/md_images/2...

6.shuffle 和共享变量 by DER DER

https://hainiubl.com/topics/76299? 2023-04-15 ⋅ 2039 ⋅ 0 ⋅ 0
# spark-shuffle和共享变量 # 12 共享变量 Spark两种共享变量:广播变量(broadcast variable)与累加器(accumulator)。 累加器用来对信息进行聚合,相当于mapreduce中的counter;而广播变量用来高效分发较大的对象,相当于semijoin中的DistributedCache...

7.序列化、GC 和操作 hbase by DER DER

https://hainiubl.com/topics/76300? 2023-04-15 ⋅ 2089 ⋅ 1 ⋅ 0
# spark序列化、GC和操作hbase # 17 spark序列化使用 由于大多数Spark计算的内存性质,Spark程序可能会受到集群中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果内存资源足够,则瓶颈是网络带宽。 数据序列化,这对于良好的网络性能至关重要。 在Spa...

8.spark-sql by DER DER

https://hainiubl.com/topics/76301? 2023-04-15 ⋅ 2814 ⋅ 1 ⋅ 0
# spark-sql ## 20.1 SparkSQL的发展历程 ### 20.1.1 Hive and Shark SparkSQL的前身是Shark,是给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,它是运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘...

9.spark Streaming01 by DER DER

https://hainiubl.com/topics/76302? 2023-04-15 ⋅ 2207 ⋅ 0 ⋅ 0
# spark Streaming01 ## 21.1 spark streaming介绍 ### 21.1.1 背景 随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,传统的 MapReduce 等批处理框架在某些特定领域,例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人...

Phoenix 二级索引适用场景是什么? by (「・ω・)「嘿!offer (「・ω・)「嘿!offer

https://hainiubl.com/topics/76304? 2023-04-23 ⋅ 1473 ⋅ 0 ⋅ 1
何老师,为什么Phoenix的全局索引适合读多写少情况?本地索引适合读少写多情况?

[教程] Spark 教程(Spark3.x 原理深入与实战调优,全方位讲解) by 青牛 青牛

https://hainiubl.com/topics/76305? 2023-05-04 ⋅ 9842 ⋅ 3 ⋅ 2
> Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是由加州大学伯克利分校的AMP实验室所开源的类MapReduce的通用并行框架,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此计算速度更快。...

[下载] Spark 教程 by 青牛 青牛

https://hainiubl.com/topics/76306? 2023-05-04 ⋅ 25224 ⋅ 23 ⋅ 281
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618 **视频观看:** [【海牛大数据】Spark教程(Spark3.x原理深入与实战调优,全方位讲解)](https://www.bilibili.com/video/BV1og4y1L7JB) **线上笔记:**...

1.zookeeper 安装和原理 by DER DER

https://hainiubl.com/topics/76311? 2023-05-09 ⋅ 2546 ⋅ 3 ⋅ 1
## 1.zookeeper的介绍 ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。分布式应用可以基于它实现更高级的服务,实现诸如同步服务、配置维护和集群管理或者命名的服务。 ### 1.1 首先我们介绍一下...

2.zookeeper 命令和编程 by DER DER

https://hainiubl.com/topics/76312? 2023-05-09 ⋅ 2414 ⋅ 2 ⋅ 0
## 5.zookeeper的使用命令 #### 3.1 ZooKeeper服务命令 1)启动ZK服务: sh bin/zkServer.sh start 2)查看ZK服务状态: sh bin/zkServer.sh status 3)停止ZK服务: sh bin/zkServer.sh stop 4)重启ZK服务: sh bin/zkServer.sh restart --- ```bash...

学习? by zss zss

https://hainiubl.com/topics/76347? 2023-05-31 ⋅ 1571 ⋅ 2 ⋅ 2
您好 这边集群的各种软件有资源下载码

[教程] StructuredStreaming 教程(一套课程全面了解 spark 流式计算的新篇章) by 青牛 青牛

https://hainiubl.com/topics/76348? 2023-06-01 ⋅ 3641 ⋅ 1 ⋅ 3
> Structured-Streaming是基于SparkSQL引擎构建的可扩展和容错流处理引擎。计算在同一个优化的SparkSQL引擎上执行。最后,系统通过检查点和预写日志确保端到端一次容错保证。简而言之,结构化流提供了快速、可扩展、容错、端到端的一次流处理。 **前置知识: Linux...

[下载] StructuredStreaming 教程 by 青牛 青牛

https://hainiubl.com/topics/76349? 2023-06-01 ⋅ 13260 ⋅ 5 ⋅ 95
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618 **视频观看:** [【海牛大数据】StructuredStreaming教程(一套课程全面了解spark流式计算的新篇章)](https://www.bilibili.com/video/BV1uX4y187ub) *...

[教程] Zookeeper 教程(原理、搭建、API 开发全套讲解)[云平台课程] by 青牛 青牛

https://hainiubl.com/topics/76354? 2023-06-05 ⋅ 4376 ⋅ 0 ⋅ 2
> ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。分布式应用可以基于它实现更高级的服务,实现诸如同步服务、配置维护和集群管理或者命名的服务。 **前置知识: Linux基础、Java基础** **课程视...

[下载] Zookeeper 教程 by 青牛 青牛

https://hainiubl.com/topics/76355? 2023-06-05 ⋅ 12315 ⋅ 6 ⋅ 93
> **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618 **视频观看:** [【海牛大数据】Zookeeper教程(原理、搭建、api开发全套讲解)](https://www.bilibili.com/video/BV11V4y1U7db) **线上笔记:** [【海...

可以使用 XShell 连接云平台吗? by hudson hudson

https://hainiubl.com/topics/76356? 2023-06-25 ⋅ 1624 ⋅ 1 ⋅ 3
可以使用XShell连接云平台吗,怎么连接

平台资源是该了吗? by 小李的亡命天涯 小李的亡命天涯

https://hainiubl.com/topics/76357? 2023-06-27 ⋅ 1810 ⋅ 0 ⋅ 1
cpu变成8核 内存变成8g了 不太够用啊

【核心技術分享】关于 FlinkSQL 的 JOIN 算子如何设置单表 TTL(状态过期时间) by leeston9 leeston9

https://hainiubl.com/topics/76358? 2023-07-01 ⋅ 3302 ⋅ 0 ⋅ 2
###### 对于很多做实时计算云平台开发的企业来讲,FlinkSQL 是绕不开的技术,当然在FlinkSQL的实际使用中,也有很多不尽人意之处,最明显的就是FlinkSQL 无法对TTL进行细粒度设置,这将导致我整个作业都依赖于全局TTL,对于一些大状态的作业比(如包含了多流join, 连接...

hive 讲的好 by 祝梓源 祝梓源

https://hainiubl.com/topics/76364? 2023-07-10 ⋅ 2136 ⋅ 0 ⋅ 0
海牛很贴心!

Hive 处理复杂逻辑时,SQL 里边需要创建临时表, 分段书写吗?还是有其他的方式处理逻辑。 by abner abner

https://hainiubl.com/topics/76365? 2023-07-14 ⋅ 1780 ⋅ 1 ⋅ 1
网上的Hive教程,最多用到了五六张表,一段SQL就搞定了。 打个比方,现在传统数仓有张大宽表,两百多个字段,用了几十张ODS表。逻辑比较复杂,Oracle存储过程里分成十几个步骤,每段创建临时表处理。 如果要把这张宽表迁移到Hive,SQL要怎么实现啊?是不是也是在脚本...

灌灌水,活跃活跃,最新回答都两个月前了 by shuoyun shuoyun

https://hainiubl.com/topics/76368? 2023-09-07 ⋅ 1585 ⋅ 0 ⋅ 1
灌灌水,活跃活跃,最新回答都两个月前了

集群? by 13101401213 13101401213

https://hainiubl.com/topics/76370? 2023-09-14 ⋅ 1353 ⋅ 0 ⋅ 1
我没有启动集群为什么我点开始实验 显示同一时间只能允许启动一个实验?

广东 数据开发 招聘 by 外向或闪灵 外向或闪灵

https://hainiubl.com/topics/76371? 2023-09-14 ⋅ 1085 ⋅ 0 ⋅ 0
**职位要求:** 1. 熟练掌握:Oracle数据库查询,精通SQL语法; 2. 熟练使用DB2、GaussDB、Oracle中一种或多种数据库; 3. 熟悉CTM、Hadoop、Smartbi组件; 4. 常用ETL工具,能进行SQL调优; 5. 熟悉Linux、系统及基本命令,能用shell编程; 6. 能良好沟通和团队...

北京&西安 运维技术支持 招聘 by 外向或闪灵 外向或闪灵

https://hainiubl.com/topics/76372? 2023-09-14 ⋅ 1167 ⋅ 0 ⋅ 2
**招聘要求:** 1. 学信网可查专科及以上学历,至少2021年毕业 2. 有运维经验熟悉linux,掌握k8s、docker 3. 负责内容也是 CDN 业务处理、监控处理 4. 排班制,全年7x24轮;00~08 夜班、08~16 早班、16~00 中班,一个月最多一次夜班,夜班补助100元/次 备注:每个...

武汉 大数据运维工程师&运维工程师 招聘 by 外向或闪灵 外向或闪灵

https://hainiubl.com/topics/76373? 2023-09-18 ⋅ 1425 ⋅ 1 ⋅ 2
**招聘要求** 1. 具备一定的大数据、分布式基础与经验; 2. 了解大数据、云平台、云原生常见架构与技术栈,具备相关的实操经验 ,如(Kafka/Hadoop/HBase/Spark/Flink/starrocks /carbondata /kudu 等); 3. 熟悉大数据集部署、linux系统的配置、掌握shell 。 薪...