# 1 flume归集access.log日志到HDFS

## 1.1 安装nginx用于模拟生成点击日志
解压nginx并编译安装
```sh
# 解压
tar -xzf ./tengine-2.2.0.tar.gz -C /usr/local
#...
## kafka之consumer
## 1.kafka的数据存储结构

以上是kafka的数据的存储方式
这些数据可以在服务器集群上对应的文件夹中查看到
、基于ZooKeeper的协调管理的分布式流平台的功能强大的消息系...
# kafka之producer
## 1.kafka的整体框架

首先kafka启动以后所有的broker都会向zookeeper进行注册,在/brokers/ids中以列表的形式展示所有的节点,在/control...
# kafka高级部分
## 1.kafka的文件存储原理
在以上部分的讲解中我们知道了,kafka的使用场景就是在流式处理过程中,充当一个中间缓冲介质的作用,主要功能是将数据先放入到kafka中,计算框架会自己拉取要消费和计算的数据过来,采用poll的方式完全适配自身消费速...
# 1 sqoop原理
## 1.1 sqoop介绍
Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。
**导入数据**:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。
**导出数据**:从hadoop的文件系统中导出数据到关系型数据库中。...
# 1 flume channl事务详解
Flume是一个日志文件收集工具,主要有三个阶段:
1.通过source 把数据从数据源收集过来。
2.通过source把数据传入到channel中
3.再把数据从channel传输到sink里面,sink把数据传给目的地(如:hdfs、hbase、hive、本地磁盘等).
flume在收...
> Kafka是一个分布式消息队列系统,作为数据管道式传输中间件,有备份冗余、高吞吐量、水平扩展等特性。所以在流式计算等实时场景中经常能看到它的身影。本课程中详细阐述了kafka的组件原理,拦截器,断点续传等高级功能,并从源码入手分析性能优化方案。课程中还增加吧...
产品展示:
1.WebShell

2.远程桌面

3.丰富的大数据组件镜像
,测试完成后请回帖
> 零基础转行学IT,问的最多的就是我能不能学明白?听别人答不如自己感同身受测试一下,设计本测试的灵感来自于IT行业中程序员的基础工作要求**动手**...
flume日志采集,mr负责清洗,数据是非结构化的,怎么进行拆分,拿到我们想要的数据,面试被问到了,要求具体一点回答,谢谢
# 8 集合常用方法和函数操作
## foreach
foreach 方法的原型:
```
// f 返回的类型是Unit, foreach 返回的类型是Unit
def foreach[U](f: Elem => U)
```
该方法接受一个函数 f 作为参数, 函数 f 的类型为Elem =\> U,即 f 接受一个参数,参数的类型为...
# 9 类
类和对象是Java、C++等面向对象编程的基础概念。类是用来创建对象的蓝图。定义好类以后,就可以使用new关键字来创建对象。
scala 如果不写权限修饰符,默认是public。
一个类文件可以声明多个类;
定义语法:
```
//模板类
class 类名{
}...
# 18 高阶函数
在数据和计算中,高阶函数是至少满足下列一个条件的函数:
1)接受一个或多个函数作为输入
2)输出一个函数
**输出一个函数**
```scala
// 输出Int类型
scala> def add(a:Int, b:Int) = a + b
add: (a: Int, b: Int)Int
// 输出函数...
# 1.scala基础

Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。
Scala的...
> Flume是一个方便快捷的数据采集系统,作为数据采集端它支持多种数据格式,能把采集的数据存储到HDFS或者kafka等多种数据接收端中,并提供自定义接口用于扩展不同的数据采集和接收需求。课程中讲解了flume的原理、安装、各种source,channel,sink的使用。还增加了拦截...
## 1 Linux 简介
1. 狭义来说,Linux实际上指Linux kernel (内核)。内核负责管理硬件,并为上层应用提供接口。
2. 而广义来说,是指以Linux kernel 为基础的,包括OS和各种应用在内的各个Linux版本。简单理解为类似于windows和mac OS一样的操作系统。
3....

# 1 flume概述
Flume是cloudera(**CDH版本的hadoop**) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地...
# 1 flume 常见channel介绍
Channel是连接Source和Sink的组件,大家可以将它看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上, 直到Sink处理完该事件,Flume对于Channel,则提供了Memory Channel、JDBC Chanel、File Channe...
# 1 Flume Sink Processors
## 1.1 Failover Sink Processor
故障转移处理器可以同时指定多个sink输出,按照优先级高低进行数据的分发,并具有故障转移能力
...
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),机试完成后请在本贴回复
## 本测试使用资料有:
* #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3
* #### 笔记:http://www.hainiubl.com/topics/76216...
## 1 机试环境准备
找到海牛实验室中linux的公用组件,咱们用的linux系统版本是centos7的版本。
实验室中为了方便各位操作,已提供了云主机,后续练习中需要几台linux服务器,直接选择公用的linux组件添加即可。
,机试完成后请在本贴回复
## 本测试使用资料有:
* #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3
* #### 笔记:http://www.hainiubl.com/topics/76216...
> Scala是在基于jvm环境运行的函数式编程语言,可以支持所有的java类库,所以java能干的事情它都能干,还有自己强大的特性,支持交互式编程、强大的集合类库、各种线程的函数,如果使用熟练那真是编程利器,能提高很多编码的速度,做同一间事要比java快得多。由它编写的...
## 注意本测试使用电脑完成,不要使用电脑端微信打开平台(因为微信中默认ESC退出打开的链接),机试完成后请在本贴回复
## 本测试使用资料有:
* #### 视频:https://www.bilibili.com/video/BV1D24y1p7J3
* #### 笔记:http://www.hainiubl.com/topics/76216...
# 1 阶段组件介绍

# 2 主流大数据平台介绍
## 2.1 CDH(Cloudera Distribution Hadoop)
由Cloudera公司开发,有开源版本与商业版本(6.3.2以前有免费版),大数...
# 环境准备
准备三台linux服务器,并配置资源

启动三台服务器
...