关于 “” 的搜索结果, 共 2411 条






4 flume 案例实战 by 薪牛 薪牛

https://hainiubl.com/topics/76174? 2023-02-02 ⋅ 1922 ⋅ 0 ⋅ 0
# 1 flume归集access.log日志到HDFS ![file](http://www.hainiubl.com/uploads/md_images/202302/02/12/image-20230202104349901.png) ## 1.1 安装nginx用于模拟生成点击日志 解压nginx并编译安装 ```sh # 解压 tar -xzf ./tengine-2.2.0.tar.gz -C /usr/local #...

3.kafka 之 consumer by DER DER

https://hainiubl.com/topics/76175? 2023-02-03 ⋅ 2279 ⋅ 0 ⋅ 0
## kafka之consumer ## 1.kafka的数据存储结构 ![file](http://www.hainiubl.com/uploads/md_images/202302/03/18/image-20230129203413072.png) 以上是kafka的数据的存储方式 这些数据可以在服务器集群上对应的文件夹中查看到 ![file](http://www.h...

1.kafka-原理和安装以及操作 by DER DER

https://hainiubl.com/topics/76176? 2023-02-03 ⋅ 3415 ⋅ 5 ⋅ 0
## kafka-原理和安装以及操作 ## 1.kafka是什么 Kafka是由LinkedIn开发的一个分布式的<font color='red'>消息队列</font>。它是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper的协调管理的分布式流平台的功能强大的消息系...

2.kafka 之 producer by DER DER

https://hainiubl.com/topics/76179? 2023-02-03 ⋅ 2713 ⋅ 1 ⋅ 0
# kafka之producer ## 1.kafka的整体框架 ![file](http://www.hainiubl.com/uploads/md_images/202302/03/19/image-20230129103051612.png) 首先kafka启动以后所有的broker都会向zookeeper进行注册,在/brokers/ids中以列表的形式展示所有的节点,在/control...

4.kafka 高级部分 by DER DER

https://hainiubl.com/topics/76180? 2023-02-03 ⋅ 2857 ⋅ 0 ⋅ 0
# kafka高级部分 ## 1.kafka的文件存储原理 在以上部分的讲解中我们知道了,kafka的使用场景就是在流式处理过程中,充当一个中间缓冲介质的作用,主要功能是将数据先放入到kafka中,计算框架会自己拉取要消费和计算的数据过来,采用poll的方式完全适配自身消费速...

sqoop by 薪牛 薪牛

https://hainiubl.com/topics/76182? 2023-02-04 ⋅ 4290 ⋅ 0 ⋅ 0
# 1 sqoop原理 ## 1.1 sqoop介绍 Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。   **导入数据**:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。   **导出数据**:从hadoop的文件系统中导出数据到关系型数据库中。...

5 flume 扩展 by 薪牛 薪牛

https://hainiubl.com/topics/76183? 2023-02-04 ⋅ 2153 ⋅ 0 ⋅ 0
# 1 flume channl事务详解 Flume是一个日志文件收集工具,主要有三个阶段: 1.通过source 把数据从数据源收集过来。 2.通过source把数据传入到channel中 3.再把数据从channel传输到sink里面,sink把数据传给目的地(如:hdfs、hbase、hive、本地磁盘等). flume在收...

[教程] Kafka 教程(Kafka3.3.2 原理、安装、应用场景、源码解析、高级优化、实战案例应有尽有) by 青牛 青牛

https://hainiubl.com/topics/76184? 2023-02-07 ⋅ 7987 ⋅ 6 ⋅ 7
> Kafka是一个分布式消息队列系统,作为数据管道式传输中间件,有备份冗余、高吞吐量、水平扩展等特性。所以在流式计算等实时场景中经常能看到它的身影。本课程中详细阐述了kafka的组件原理,拦截器,断点续传等高级功能,并从源码入手分析性能优化方案。课程中还增加吧...

[公告] 海汼部落云平台使用教程 by 青牛 青牛

https://hainiubl.com/topics/76185? 2023-02-08 ⋅ 4322 ⋅ 2 ⋅ 1
产品展示: 1.WebShell ![file](http://hainiubl.com/uploads/images/202302/08/12/5x97msSX2Y.png) 2.远程桌面 ![file](http://hainiubl.com/uploads/images/202302/08/12/fab1AhXL5o.png) 3.丰富的大数据组件镜像 ![file](http://hainiubl.com/uploads/images/2...

[公告] 海汼部落云平台如何保存实操进度(镜像功能) by 青牛 青牛

https://hainiubl.com/topics/76186? 2023-02-09 ⋅ 3982 ⋅ 1 ⋅ 2
> 由于海汼部落云平台提供的虚拟机是一个临时的资源,如果大于一个小时不操作资源将被回收,所以小伙伴们想在下一次练习的时候继续使用上一次练习的结果,那就需要使用云平台的镜像功能把你的虚拟机保存成镜像,下次练习的时候从镜像启动就可以了。 ### 镜像功能十分...

[公告] 零基础学习者基础测试 by 青牛 青牛

https://hainiubl.com/topics/76187? 2023-02-09 ⋅ 19953 ⋅ 14 ⋅ 91
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),测试完成后请回帖 > 零基础转行学IT,问的最多的就是我能不能学明白?听别人答不如自己感同身受测试一下,设计本测试的灵感来自于IT行业中程序员的基础工作要求**动手**...

mr 数据清洗问题? by Snow Snow

https://hainiubl.com/topics/76188? 2023-02-10 ⋅ 1476 ⋅ 0 ⋅ 1
flume日志采集,mr负责清洗,数据是非结构化的,怎么进行拆分,拿到我们想要的数据,面试被问到了,要求具体一点回答,谢谢

2.集合常用方法和函数操作 by DER DER

https://hainiubl.com/topics/76190? 2023-02-10 ⋅ 2659 ⋅ 2 ⋅ 0
# 8 集合常用方法和函数操作 ## foreach foreach 方法的原型: ``` // f 返回的类型是Unit, foreach 返回的类型是Unit def foreach[U](f: Elem => U) ``` 该方法接受一个函数 f 作为参数, 函数 f 的类型为Elem =\> U,即 f 接受一个参数,参数的类型为...

3.scala 类和匹配 by DER DER

https://hainiubl.com/topics/76191? 2023-02-10 ⋅ 2425 ⋅ 1 ⋅ 0
# 9 类 类和对象是Java、C++等面向对象编程的基础概念。类是用来创建对象的蓝图。定义好类以后,就可以使用new关键字来创建对象。 scala 如果不写权限修饰符,默认是public。 一个类文件可以声明多个类; 定义语法: ``` //模板类 class 类名{ }...

4.scala 高级部分 by DER DER

https://hainiubl.com/topics/76192? 2023-02-10 ⋅ 2580 ⋅ 2 ⋅ 1
# 18 高阶函数 在数据和计算中,高阶函数是至少满足下列一个条件的函数: 1)接受一个或多个函数作为输入 2)输出一个函数 **输出一个函数** ```scala // 输出Int类型 scala> def add(a:Int, b:Int) = a + b add: (a: Int, b: Int)Int // 输出函数...

1.scala 基础 by DER DER

https://hainiubl.com/topics/76193? 2023-02-10 ⋅ 4112 ⋅ 3 ⋅ 0
# 1.scala基础 ![file](http://www.hainiubl.com/uploads/md_images/202302/10/20/1f077ecb92fd712367e8adb2a68a7153.png) Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。 Scala的...

[教程] Flume 教程(学 Flume 看这个一套就够了,从基础到扩展到实战案例到组件配合全都有) by 青牛 青牛

https://hainiubl.com/topics/76204? 2023-02-12 ⋅ 4248 ⋅ 0 ⋅ 0
> Flume是一个方便快捷的数据采集系统,作为数据采集端它支持多种数据格式,能把采集的数据存储到HDFS或者kafka等多种数据接收端中,并提供自定义接口用于扩展不同的数据采集和接收需求。课程中讲解了flume的原理、安装、各种source,channel,sink的使用。还增加了拦截...

零基础学习者 Linux 在线实操测试 by 青牛 青牛

https://hainiubl.com/topics/76207? 2023-02-13 ⋅ 3722 ⋅ 1 ⋅ 2
## 1 Linux 简介 1. 狭义来说,Linux实际上指Linux kernel (内核)。内核负责管理硬件,并为上层应用提供接口。 2. 而广义来说,是指以Linux kernel 为基础的,包括OS和各种应用在内的各个Linux版本。简单理解为类似于windows和mac OS一样的操作系统。 3....

新手问题? by le le

https://hainiubl.com/topics/76208? 2023-02-13 ⋅ 1428 ⋅ 0 ⋅ 1
问什么总是显示未能成功建立连接?

不能按 esc,怎么保存 vi 文件? by kc999 kc999

https://hainiubl.com/topics/76209? 2023-02-13 ⋅ 1686 ⋅ 1 ⋅ 1
不能按esc,怎么保存vi文件?

flume 实训笔记 1 flume 介绍,安装,常见 source by 薪牛 薪牛

https://hainiubl.com/topics/76212? 2023-02-15 ⋅ 2541 ⋅ 0 ⋅ 0
![file](http://www.hainiubl.com/uploads/md_images/202302/15/16/image-20230128144009263.png) # 1 flume概述 ​ Flume是cloudera(**CDH版本的hadoop**) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地...

flume 实训笔记 2 flume 常见 channel、sink by 薪牛 薪牛

https://hainiubl.com/topics/76213? 2023-02-15 ⋅ 2199 ⋅ 0 ⋅ 0
# 1 flume 常见channel介绍 ​ Channel是连接Source和Sink的组件,大家可以将它看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上, 直到Sink处理完该事件,Flume对于Channel,则提供了Memory Channel、JDBC Chanel、File Channe...

flume 实训笔记 3 flume Sink Processors 、Interceptor by 薪牛 薪牛

https://hainiubl.com/topics/76214? 2023-02-15 ⋅ 2100 ⋅ 0 ⋅ 0
# 1 Flume Sink Processors ## 1.1 Failover Sink Processor 故障转移处理器可以同时指定多个sink输出,按照优先级高低进行数据的分发,并具有故障转移能力 ![file](http://www.hainiubl.com/uploads/md_images/202302/15/16/image-20230131165211505.png)...

大数据研发在线机试 A by RDManagement RDManagement

https://hainiubl.com/topics/76215? 2023-02-17 ⋅ 47832 ⋅ 47 ⋅ 399
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),机试完成后请在本贴回复 ## 本测试使用资料有: * #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3 * #### 笔记:http://www.hainiubl.com/topics/76216...

大数据研发机试参考笔记 by RDManagement RDManagement

https://hainiubl.com/topics/76216? 2023-02-17 ⋅ 5441 ⋅ 6 ⋅ 12
## 1 机试环境准备 找到海牛实验室中linux的公用组件,咱们用的linux系统版本是centos7的版本。 实验室中为了方便各位操作,已提供了云主机,后续练习中需要几台linux服务器,直接选择公用的linux组件添加即可。 ![file](http://www.hainiubl.com/uploads/md...

大数据研发在线机试 B by RDManagement RDManagement

https://hainiubl.com/topics/76217? 2023-02-20 ⋅ 35890 ⋅ 23 ⋅ 297
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),机试完成后请在本贴回复 ## 本测试使用资料有: * #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3 * #### 笔记:http://www.hainiubl.com/topics/76216...

[教程] Scala 教程(从基础语法到函数式编程再到网络编程,全套保姆式教学) by 青牛 青牛

https://hainiubl.com/topics/76218? 2023-02-23 ⋅ 10735 ⋅ 2 ⋅ 15
> Scala是在基于jvm环境运行的函数式编程语言,可以支持所有的java类库,所以java能干的事情它都能干,还有自己强大的特性,支持交互式编程、强大的集合类库、各种线程的函数,如果使用熟练那真是编程利器,能提高很多编码的速度,做同一间事要比java快得多。由它编写的...

大数据研发在线机试 C by RDManagement RDManagement

https://hainiubl.com/topics/76224? 2023-02-25 ⋅ 1539 ⋅ 0 ⋅ 2
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),机试完成后请在本贴回复 ## 本测试使用资料有: * #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3 * #### 笔记:http://www.hainiubl.com/topics/76216...

大数据平台概述 by 薪牛 薪牛

https://hainiubl.com/topics/76226? 2023-02-27 ⋅ 2951 ⋅ 1 ⋅ 2
# 1 阶段组件介绍 ![file](http://www.hainiubl.com/uploads/md_images/202302/27/09/image-20230221133518627.png) # 2 主流大数据平台介绍 ## 2.1 CDH(Cloudera Distribution Hadoop) ​ 由Cloudera公司开发,有开源版本与商业版本(6.3.2以前有免费版),大数...

cdh 大数据平台搭建 by 薪牛 薪牛

https://hainiubl.com/topics/76227? 2023-02-27 ⋅ 4839 ⋅ 0 ⋅ 3
# 环境准备 准备三台linux服务器,并配置资源 ![file](http://www.hainiubl.com/uploads/md_images/202302/27/09/image-20230206101028939.png) 启动三台服务器 ![file](http://www.hainiubl.com/uploads/md_images/202302/27/09/image-20230206100653234.png)...