# **1 yarn 是什么?**
yarn是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的,通俗讲是跑任务的。
其核心思想:将MR1中资源管理和作业调用两个功能分开,分别由ResourceM...
# **1 hadoop的windows伪分布式环境部署**
## **1.1 需要的软件**

winutils-master:windows模拟linux 环境
hadoop-2.7.3.tar.gz:hadoop...
# 31 hbase背景
HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随机读写操作,HBase正是为此而出现。HBase参考 Google 的 Bigtable 实现,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

在hive中创建hbase外表,并指定hbase表名,将hbase映射到hive表。在hive中向hbase外表中插入数据,将...
# 1 搭建hbase开发环境
## **1.1 用idea正常创建maven工程**
### 1.1.1 安装和配置idea
官方下载地址: https://www.jetbrains.com/zh-cn/idea/download/#section=windows
语句作为数据访问接口。
## **1.1 hive的优缺点**
**优点:**...
# **1 数据类型**
## 1.1 基本类型
| 数据类型 | 大小 | 范围 | 示例 |
| ----------- | ----- | ------------------------------------------------------ | ------------ |
| TINYINT | 1byte...
# **1 表SQL操作**
## 1.1 通过select数据集创建表
```sql
--通过select数据集创建表语法格式
create table table_name [stored as orc]
as
select ......
```
只能是内部表,不支持分区,分桶
示例:
```
--创建内部表inner_test1
create table inne...
# **1 HIVE SELECT 语法**
```
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ]...
# **1 排序**

**order by**
会对输入做全局排序,因此只有一个reducer。
设置reduce个数没用
order by 在hive.mapred.mode = stric...
# 1 SMB Join(sort merge bucket)
SMB Join是 sort merge bucket操作,首先进行排序,继而合并,然后放到所对应的bucket中去,bucket是hive中和分区表类似的技术,就是按照key进行hash,相同的hash值都放到相同的bucket中去。在进行两个表联合的时候。我们首...
# 1 mapreduce 概述
## **1.1mapreduce介绍**
1. MapReduce是一种分布式计算模型
2. 由谷歌提出,基于GFS进行设计,主要用于搜索领域中解决海量数据的计算问题
3. Doug Cutting根据《MapReduce: Simplified Data Processing on Large Clusters》设计实现了Hadoop...
# 1 mapreducer的配置
## 1.1 推测执行
Straggle(掉队者)是指那些跑的很慢但最终会成功完成的任务。一个掉队的Map任务会阻止Reduce任务开始执行。
Hadoop不能自动纠正掉队任务,但是可以识别那些跑的比较慢的任务,然后它会产生另一个等效的任务作为备份...
# 1 MapJoin
```java
/**
* 缓存形式的mr任务,将一个数据放入到自己的缓存中(小数据)
* 大文件使用mapper任务读取数据,读一次就和自己的缓存数据比对一下
* 大,小 文件join的时候可以尽量的避免shuffle流程带来的损耗,mapjoin
*/
public class CacheJoinMR...
# 1 phoenix原理
## 1.1 phoenix定位
Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是一个HBASE SQL层(即为HBase的一个SQL引擎),用作应用层和HBASE之间的中间件。Phoeinx可以用标准的JDBC API替代HBASE client API来创建表...
# 1 Lucene
## 1.1 Lucene介绍
Lucene是apache软件基金会 jakarta项目组的一个子项目,<font color='red'>是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析...
# 1 下载es、kibana包
elasticsearch下载地址:https://www.elastic.co/downloads/past-releases
kibanna下载地址:https://www.elastic.co/cn/downloads/past-releases
本次采用的 es 和 kibanna 版本都是 7.12.1

## 1.2 查看索引状态
```json
GET /_cat/indices?v
```

上传es-hadoop插件到集群,并...
# 1 mac版
* 检查操作系统是否安装kerberos客户端
```sh
kinit
# 如果提示找不到命令,请使用如下命令安装
brew install krb5
```
* 下载并修改配置文件
```sh
# 下载kerberos服务端的krb5.conf文件到本地,复制到/etc/目录下
# 修改为如下内容
# Co...
# 1 概述
## 1.1 为什么要引入lily和solr
在Hbase中,表的RowKey 按照字典排序, 单一的通过RowKey检索数据的方式,不再满足更多的需求,查询成为Hbase的瓶颈,希望像Sql一样快速检索数据,Hbase之前定位的是大表的存储,要进行这样的查询,往往是要通过类...
# 1 impala介绍
Cloudera Impala是一款开源的**MPP**架构的SQL查询引擎,它提供在hadoop环境上的低延迟、高并发的BI/数据分析,是一款开源、与Hadoop高度集成,灵活可扩展的查询分析引擎,目标是基于SQL提供高并发的即席查询。
与其他的查询引擎系统(如pre...
# 1 impala操作环境
## 1.1 impala-shell
```sh
# 创建 impala 用户和认证凭证
kadmin.local
addprinc -pw impala impala@HAINIU.COM
xst -norandkey -k /data/impala.keytab impala
exit
# 认证impala
kinit -kt /data/impala.keytab impala
klist...
# 1 pom文件添加依赖
```xml
<dependencies>
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>
</dependency>
<dependency>...
# 1 如何找到你执行SQL的Profile文件
在impala中,如果你执行了一个SQL,该如何查看其内部的运行流程,该如何对现有SQL进行优化,这就需要你会查看profile文件。
能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
国内有个kylingence公司, 将Kylin...