# 1 kylin安装和启动
## 1.1 安装
### 1.1.1 安装包解压和修改软链接
上传安装包至服务器,解压至/usr/local目录下,创建kylin软链接
```sh
# 解压
tar -xvf /opt/apache-kylin-3.1.2-bin-cdh60.tar -C /usr/local/
# 创建软链接
ln -s /usr/local/apac...
参考官方文档:https://kylin.apache.org/cn/docs31/tutorial/create_cube.html
# 1 创建工程

# 2 同步hive表
## 2.1 同步hive表...
# zeppelin配置
## 1,下载zeppelin
```shell
wget https://mirrors.cloud.tencent.com/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz
```
## 2,解压
```shell
tar -zxvf zeppelin-0.8.2-bin-all.tgz -C /usr/local
```
## 3,修改配置...
# 1 flume概述
Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据,同时,Flume提供对数据的简单处理,并写到各种数据接收方的能力,Flume 在0.9.x and 1.x之间有较大的架构调整,1.x版本之后的改称Flume NG,0.9...
# 1 概述
ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。
Kettle是ETL中其中一个开源工具,基于纯Java开发,Kettle 是 PD...
# 1 sqoop原理
## 1.1 sqoop介绍
Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。
**导入数据**:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。
**导出数据**:从hadoop的文件系统中导出数据到关系型数据库...
# 22 kafka分布式消息队列
## 22.1 概述
Kafka是由LinkedIn开发的一个分布式的消息系统。它是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper的协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,KafKa能...
# 1 概述
## 1.1 名词解释
**DAG:** 全称Directed Acyclic Graph,简称DAG(有向无环图)。工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。

* 安装jdk
```sh
# 上传jdk安装包
rpm -ivh jdk-8u144-linux-x64.rpm
```
* 配置环境变量
```sh
export JAVA_HOME=/usr/java/jdk1.8.0_144
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JA...
# 1 创建队列
- 队列是在执行spark、mapreduce等程序,需要用到“队列”参数时使用的。
- 管理员进入安全中心->队列管理页面,点击“创建队列”按钮,创建队列。
...
# 1 概述

Redis是当前比较热门的NOSQL系统之一,它是一个开源的使用ANSI c语言编写的key-value存储系统(区别于MySQL的二维表格的形式存储)。
Red...

# 1 spark 概述
## 1.1 Spark产生的背景
MapReduce的局限性:
1)仅支持Map 和 Reduce 两种操作;
2)MapReduce多个任务的中间结果落地磁盘,不能充分利用内存,...
## 8.1 RDD设计背景
在实际应用中,存在许多迭代式计算,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销...
## 概述
Spark为**结构化数据**处理引入了一个称为Spark SQL的编程模块。它提供了一个称为**DataFrame(数据框)**的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。
SparkSQL的由来
SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS...
众所周知,CDH为了推自家的Impala,阉割掉了Spark的spark-sql工具,虽然很多时候我们并不需要spark-sql,但是架不住特殊情况下有使用它的时候,这个根据项目或者团队(个人)情况而异。我这边就是因为项目原因,需要使用spark-sql,因此从网上各种查资料,折腾了好几天,...
# 1 数据仓库概念
数据仓库(dataware house),一般简称DW或DWH,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它能为企业提供⼀定的BI(商业智能:例如数据挖掘、数据分析和数据报表)能⼒。
199...
# 电商行业应用
电商数仓收集各类业务日志、用户行为日志以及商品实体表等信息,按照实际业务需求设计模型,将数据规范化摆放、汇总,针对下游需求建设数据集市。如地域消费特点分析、客户消费习惯、分析影响消费因素、分析消费特点,根据数据仓库数据进行数据挖掘...
# 1 scala介绍

Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。
Scala的...
# flink cep
## 什么是 CEP
> 非确定有限状态机
>
> 复杂事件处理(Complex Event Processing,CEP)
>
> Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库
>
> CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据 中重要的部分
>...
# flinksql课件
**table api和sql介绍**
> Apache Flink 具有两个关系 API——Table API 和 SQL——用于统一流和批处理。Table API 是用于 Scala 和 Java 的语言集成查询 API,它允许以非常直观的方式组合来自关系运算符(例如选择、过滤和联接)的查询。Flink 的...
# 1.flink介绍、反压原理、内存管理、对比spark、flink的生态和应用场景以及未来
## 1.为什么要学习Flink
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计...
# **1 python简介**
**python之父:**

python的创始人为吉多·范罗苏姆(Guido van Rossum)(龟叔)。1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹 打发...
# **5 数据结构**
Python中有内建的数据结构——列表(list)、元组(tuple)、字典(dict)、集合(set)
## 5.1 列表
list是处理一组有序的数据结构,即你可以在一个列表中存储一个 序列 的数据,并且<font color='red'>里面的值是能够被改变的</font>。
...
# 12 java多线程
## 11.1 进程和线程
**进程:**
内存中运行的一个应用程序。
是系统进行资源分配和调度的一个独立单位。
**线程:**
进程中的执行流程。
一个程序至少有一个进程,一个进程至少有一个线程。
**多线程:**
在一个进程内,并发有...
# **13 python程序的命名规则**
**1)单词首字母大写,驼峰规则**
类名
**2)小写字母,单词之间用_分割**
模块名、包名、变量名、函数名、方法名
**3)大写字母,单词之间用_分割**
常量名
**4)以__开头(2个下划线),但不以\_\_结尾**
私...
> 为什么学习大数据要学习java呢?因为这是我们以后更深入的了解大数据组件,查看源码的必要语言,也是我们通往职场高薪不可或缺的工具。通过本课程可以快速的掌握大数据技术中必要的java知识,让您为接下来大数据的学习打下坚实的基础。
**零基础可学**
**课程视...
**配套笔记课件地址:**
1. MySQL概述:http://www.hainiubl.com/topics/76013
2. 表关系,多表查询,视图:http://www.hainiubl.com/topics/76015
3. JDBC:http://www.hainiubl.com/topics/76017
4. maven:http://www.hainiubl.com/topics/76019
5. 函数:http:/...
**配套笔记课件地址:**
1. 数据库基本概念,MySQL安装,约束:http://www.hainiubl.com/topics/76005
2. sql语句,多表查询,索引:http://www.hainiubl.com/topics/76007
3. jdbc:http://www.hainiubl.com/topics/76009
4.maven:http://www.hainiubl.com/topics/7...
**配套笔记课件地址:**
1. Linux常用命令:http://www.hainiubl.com/topics/76023
2. Shell编程:http://www.hainiubl.com/topics/76024
**[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618
**配套笔记课件地址:**
1.Linux基础,安装:http://www.hainiubl.com/topics/76028
2.Linux操作:http://www.hainiubl.com/topics/76027
**[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618