关于 “” 的搜索结果, 共 2411 条






5.YARN by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76042? 2023-01-06 ⋅ 1840 ⋅ 0 ⋅ 0
# **1 yarn 是什么?** ​ yarn是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的,通俗讲是跑任务的。 其核心思想:将MR1中资源管理和作业调用两个功能分开,分别由ResourceM...

6.伪集群搭建 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76043? 2023-01-06 ⋅ 1602 ⋅ 0 ⋅ 0
# **1 hadoop的windows伪分布式环境部署** ## **1.1 需要的软件** ![file](http://www.hainiubl.com/uploads/md_images/202301/06/18/758acfcb-90e1-4ec5-8710-6b042e053a83.png) winutils-master:windows模拟linux 环境 hadoop-2.7.3.tar.gz:hadoop...

1.hbase 理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76045? 2023-01-06 ⋅ 1512 ⋅ 0 ⋅ 0
# 31 hbase背景 ​ HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随机读写操作,HBase正是为此而出现。HBase参考 Google 的 Bigtable 实现,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。 ![file](http://www.ha...

2.hbase shell 实操 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76046? 2023-01-06 ⋅ 1613 ⋅ 0 ⋅ 0
# 1 hbase shell基础实操 ## 1.1 查看hbase状态 ```sh status ``` ## 1.2 查看版本号 ```sh version ``` ## 1.3 命名空间操作 ```sh # 创建命名空间 create_namespace '命名空间名' # 显示所有命名空间 list_namespace # 删除命名空间...

3.hbase 数据导入导出 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76047? 2023-01-06 ⋅ 1895 ⋅ 0 ⋅ 0
# 1. hive数据导入hbase ## 1.1 使用hbase外表方式加载 ![file](http://www.hainiubl.com/uploads/md_images/202301/06/18/image-20211217153431944.png) 在hive中创建hbase外表,并指定hbase表名,将hbase映射到hive表。在hive中向hbase外表中插入数据,将...

4.hbaseApi by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76048? 2023-01-06 ⋅ 1477 ⋅ 0 ⋅ 0
# 1 搭建hbase开发环境 ## **1.1 用idea正常创建maven工程** ### 1.1.1 安装和配置idea 官方下载地址: https://www.jetbrains.com/zh-cn/idea/download/#section=windows ![file](http://www.hainiubl.com/uploads/md_images/202301/06/18/de2295d2-b4f8-...

01 hive 介绍与安装 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76050? 2023-01-06 ⋅ 1431 ⋅ 0 ⋅ 0
# **1 hive介绍与原理分析** ​ Hive是一个**基于**Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。 ## **1.1 hive的优缺点** **优点:**...

02 hive 数据类型、运算符、建库、建表 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76051? 2023-01-06 ⋅ 1507 ⋅ 0 ⋅ 0
# **1 数据类型** ## 1.1 基本类型 | 数据类型 | 大小 | 范围 | 示例 | | ----------- | ----- | ------------------------------------------------------ | ------------ | | TINYINT | 1byte...

03 hive 的表操作、数据加载、导出 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76053? 2023-01-06 ⋅ 1716 ⋅ 0 ⋅ 0
# **1 表SQL操作** ## 1.1 通过select数据集创建表 ```sql --通过select数据集创建表语法格式 create table table_name [stored as orc] as select ...... ``` 只能是内部表,不支持分区,分桶 示例: ``` --创建内部表inner_test1 create table inne...

04 hive 的 select、union、SQL 依赖并发执行、mapsidejoin、fulljoi by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76055? 2023-01-06 ⋅ 1303 ⋅ 0 ⋅ 0
# **1 HIVE SELECT 语法** ``` SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ]...

05 hive 的排序、窗口函数用法、在 eclipse 上运行 hive、UDF 函数 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76057? 2023-01-06 ⋅ 1538 ⋅ 0 ⋅ 0
# **1 排序** ![file](http://www.hainiubl.com/uploads/md_images/202301/06/19/057695bb-7d76-49c0-9307-307b92b6af7d.png) **order by** ​ 会对输入做全局排序,因此只有一个reducer。 ​ 设置reduce个数没用 ​ order by 在hive.mapred.mode = stric...

06 hive 实例验证 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76058? 2023-01-06 ⋅ 1420 ⋅ 0 ⋅ 0
# 1 SMB Join(sort merge bucket) ​ SMB Join是 sort merge bucket操作,首先进行排序,继而合并,然后放到所对应的bucket中去,bucket是hive中和分区表类似的技术,就是按照key进行hash,相同的hash值都放到相同的bucket中去。在进行两个表联合的时候。我们首...

01 mapreducer 原理和 wordcount by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76061? 2023-01-06 ⋅ 1469 ⋅ 0 ⋅ 0
# 1 mapreduce 概述 ## **1.1mapreduce介绍** 1. MapReduce是一种分布式计算模型 2. 由谷歌提出,基于GFS进行设计,主要用于搜索领域中解决海量数据的计算问题 3. Doug Cutting根据《MapReduce: Simplified Data Processing on Large Clusters》设计实现了Hadoop...

02 mapreduce 配置、优化、提交 yarn 流程、innerjoin by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76062? 2023-01-06 ⋅ 1508 ⋅ 0 ⋅ 0
# 1 mapreducer的配置 ## 1.1 推测执行 ​ Straggle(掉队者)是指那些跑的很慢但最终会成功完成的任务。一个掉队的Map任务会阻止Reduce任务开始执行。 ​ Hadoop不能自动纠正掉队任务,但是可以识别那些跑的比较慢的任务,然后它会产生另一个等效的任务作为备份...

03Mapjoin、排序、自定义分区排序、打包上集群 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76063? 2023-01-06 ⋅ 1374 ⋅ 0 ⋅ 0
# 1 MapJoin ```java /** * 缓存形式的mr任务,将一个数据放入到自己的缓存中(小数据) * 大文件使用mapper任务读取数据,读一次就和自己的缓存数据比对一下 * 大,小 文件join的时候可以尽量的避免shuffle流程带来的损耗,mapjoin */ public class CacheJoinMR...

1.phoenix by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76064? 2023-01-06 ⋅ 1708 ⋅ 0 ⋅ 0
# 1 phoenix原理 ## 1.1 phoenix定位 ​ Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是一个HBASE SQL层(即为HBase的一个SQL引擎),用作应用层和HBASE之间的中间件。Phoeinx可以用标准的JDBC API替代HBASE client API来创建表...

1.es 理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76065? 2023-01-06 ⋅ 1493 ⋅ 0 ⋅ 0
# 1 Lucene ## 1.1 Lucene介绍 ​ Lucene是apache软件基金会 jakarta项目组的一个子项目,<font color='red'>是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析...

2.安装 es 与 kibana by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76066? 2023-01-06 ⋅ 1489 ⋅ 0 ⋅ 0
# 1 下载es、kibana包 elasticsearch下载地址:https://www.elastic.co/downloads/past-releases kibanna下载地址:https://www.elastic.co/cn/downloads/past-releases 本次采用的 es 和 kibanna 版本都是 7.12.1 ![file](http://www.hainiubl.com/up...

3.kibana 实操 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76068? 2023-01-06 ⋅ 1443 ⋅ 0 ⋅ 0
# 1 集群操作 ## 1.1 查看集群健康情况 ```json GET /_cat/health?v ``` ![file](http://www.hainiubl.com/uploads/md_images/202301/06/20/image-20210604204102135.png) ## 1.2 查看索引状态 ```json GET /_cat/indices?v ``` ![file](...

4.hive 数据导入 es by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76069? 2023-01-06 ⋅ 1863 ⋅ 0 ⋅ 0
# 1 下载es-hadoop插件 es-hadoop 插件下载地址:https://www.elastic.co/cn/downloads/past-releases#es-hadoop ![file](http://www.hainiubl.com/uploads/md_images/202301/06/20/image-20211028190405870-1635419047101.png) 上传es-hadoop插件到集群,并...

1.kerberos 客户端配置 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76070? 2023-01-06 ⋅ 1580 ⋅ 0 ⋅ 0
# 1 mac版 * 检查操作系统是否安装kerberos客户端 ```sh kinit # 如果提示找不到命令,请使用如下命令安装 brew install krb5 ``` * 下载并修改配置文件 ```sh # 下载kerberos服务端的krb5.conf文件到本地,复制到/etc/目录下 # 修改为如下内容 # Co...

2.lily+Solr 原理与配置 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76071? 2023-01-06 ⋅ 1387 ⋅ 0 ⋅ 0
# 1 概述 ## 1.1 为什么要引入lily和solr ​ 在Hbase中,表的RowKey 按照字典排序, 单一的通过RowKey检索数据的方式,不再满足更多的需求,查询成为Hbase的瓶颈,希望像Sql一样快速检索数据,Hbase之前定位的是大表的存储,要进行这样的查询,往往是要通过类...

1.impala 理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76072? 2023-01-06 ⋅ 1507 ⋅ 0 ⋅ 0
# 1 impala介绍 ​ Cloudera Impala是一款开源的**MPP**架构的SQL查询引擎,它提供在hadoop环境上的低延迟、高并发的BI/数据分析,是一款开源、与Hadoop高度集成,灵活可扩展的查询分析引擎,目标是基于SQL提供高并发的即席查询。 ​ 与其他的查询引擎系统(如pre...

2.impala 实操 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76073? 2023-01-06 ⋅ 1775 ⋅ 0 ⋅ 0
# 1 impala操作环境 ## 1.1 impala-shell ```sh # 创建 impala 用户和认证凭证 kadmin.local addprinc -pw impala impala@HAINIU.COM xst -norandkey -k /data/impala.keytab impala exit # 认证impala kinit -kt /data/impala.keytab impala klist...

3.java 通过 jdbc 操作 kerberos 环境下 impala by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76074? 2023-01-06 ⋅ 1828 ⋅ 0 ⋅ 0
# 1 pom文件添加依赖 ```xml <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version> </dependency> <dependency>...

4.profile by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76075? 2023-01-06 ⋅ 1541 ⋅ 0 ⋅ 0
# 1 如何找到你执行SQL的Profile文件 在impala中,如果你执行了一个SQL,该如何查看其内部的运行流程,该如何对现有SQL进行优化,这就需要你会查看profile文件。 ![file](http://www.hainiubl.com/uploads/md_images/202301/06/20/image-20211113000356743-...

1.kudu 理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76076? 2023-01-06 ⋅ 1601 ⋅ 0 ⋅ 0
# 1 kudu为何应运而生 ​ kudu 是Cloudera 开源给 Apache的,针对 Hadoop 平台而开发的列式存储管理器,kudu是介于hive与hbase中间的一个组件,解决了hive的随机读写问题,同时提高了hbase的吞吐量与组合查询效率。 ​ Kudu是一种非洲的大羚羊,中文名叫“捻角羚...

2.sql 实操 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76077? 2023-01-06 ⋅ 1434 ⋅ 0 ⋅ 0
# impala操作kudu # 1 建表 ## 1.1 hash分区 **优点:** ​ 按照字段的Hash值进行分区,由于是Hash分区,数据的写入会被均匀的分散到各个 tablet 中,写入速度快。 **缺点:** ​ 但是对于顺序读的场景这一策略就不太适用了,因为数据分散,一次...

3.Kudu_API by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76078? 2023-01-06 ⋅ 1444 ⋅ 0 ⋅ 0
# 1 项目pom添加kudu依赖 ```xml <!-- 使用cdh自带的仓库--> <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>...

1.kylin 理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76079? 2023-01-07 ⋅ 1556 ⋅ 0 ⋅ 0
# 1 kylin概述 ​ Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 ​ 国内有个kylingence公司, 将Kylin...