关于 “” 的搜索结果, 共 2411 条






2.kylin 部署 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76080? 2023-01-07 ⋅ 1595 ⋅ 0 ⋅ 0
# 1 kylin安装和启动 ## 1.1 安装 ### 1.1.1 安装包解压和修改软链接 上传安装包至服务器,解压至/usr/local目录下,创建kylin软链接 ```sh # 解压 tar -xvf /opt/apache-kylin-3.1.2-bin-cdh60.tar -C /usr/local/ # 创建软链接 ln -s /usr/local/apac...

3.kylin 构建 cube by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76081? 2023-01-07 ⋅ 1532 ⋅ 0 ⋅ 0
参考官方文档:https://kylin.apache.org/cn/docs31/tutorial/create_cube.html # 1 创建工程 ![file](http://www.hainiubl.com/uploads/md_images/202301/07/14/image-20211110161633200-1636532195390.png) # 2 同步hive表 ## 2.1 同步hive表...

4.zeppelin 可视化 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76082? 2023-01-07 ⋅ 1503 ⋅ 0 ⋅ 0
# zeppelin配置 ## 1,下载zeppelin ```shell wget https://mirrors.cloud.tencent.com/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz ``` ## 2,解压 ```shell tar -zxvf zeppelin-0.8.2-bin-all.tgz -C /usr/local ``` ## 3,修改配置...

1.flume by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76083? 2023-01-07 ⋅ 1429 ⋅ 0 ⋅ 0
# 1 flume概述 ​ Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据,同时,Flume提供对数据的简单处理,并写到各种数据接收方的能力,Flume 在0.9.x and 1.x之间有较大的架构调整,1.x版本之后的改称Flume NG,0.9...

1.kettle 部署与使用 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76084? 2023-01-07 ⋅ 1626 ⋅ 0 ⋅ 0
# 1 概述 ​ ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。 ​ Kettle是ETL中其中一个开源工具,基于纯Java开发,Kettle 是 PD...

1.sqoop by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76086? 2023-01-07 ⋅ 1383 ⋅ 0 ⋅ 0
# 1 sqoop原理 ## 1.1 sqoop介绍 Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。   **导入数据**:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。   **导出数据**:从hadoop的文件系统中导出数据到关系型数据库...

1.kafka 介绍 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76088? 2023-01-07 ⋅ 1444 ⋅ 0 ⋅ 0
# 22 kafka分布式消息队列 ## 22.1 概述 Kafka是由LinkedIn开发的一个分布式的消息系统。它是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper的协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,KafKa能...

1.dolphinscheduler 原理 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76090? 2023-01-07 ⋅ 2741 ⋅ 0 ⋅ 0
# 1 概述 ## 1.1 名词解释 **DAG:** 全称Directed Acyclic Graph,简称DAG(有向无环图)。工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。 ![file](http://www.hainiubl.com/uploads/md_images/202301...

2.dolphinscheduler 安装部署 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76091? 2023-01-07 ⋅ 1840 ⋅ 0 ⋅ 0
dolphinscheduler部署 # 1 安装jdk(已安装可忽略) * 安装jdk ```sh # 上传jdk安装包 rpm -ivh jdk-8u144-linux-x64.rpm ``` * 配置环境变量 ```sh export JAVA_HOME=/usr/java/jdk1.8.0_144 export JRE_HOME=$JAVA_HOME/jre export PATH=$PATH:$JA...

3.dolphinscheduler 使用 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76092? 2023-01-07 ⋅ 2063 ⋅ 0 ⋅ 0
# 1 创建队列 - 队列是在执行spark、mapreduce等程序,需要用到“队列”参数时使用的。 - 管理员进入安全中心->队列管理页面,点击“创建队列”按钮,创建队列。 ![file](http://www.hainiubl.com/uploads/md_images/202301/07/15/image-20230107152419552.png)...

1.Redis by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76093? 2023-01-07 ⋅ 1426 ⋅ 0 ⋅ 0
# 1 概述 ![file](http://www.hainiubl.com/uploads/md_images/202301/07/15/image-20221021142247255.png) ​ Redis是当前比较热门的NOSQL系统之一,它是一个开源的使用ANSI c语言编写的key-value存储系统(区别于MySQL的二维表格的形式存储)。 ​ Red...

1-spark by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76096? 2023-01-07 ⋅ 1463 ⋅ 0 ⋅ 0
![file](http://www.hainiubl.com/uploads/md_images/202301/07/16/image-20230107160151172.png) # 1 spark 概述 ## 1.1 Spark产生的背景 MapReduce的局限性: 1)仅支持Map 和 Reduce 两种操作; 2)MapReduce多个任务的中间结果落地磁盘,不能充分利用内存,...

2-rdd 原理 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76097? 2023-01-07 ⋅ 1453 ⋅ 0 ⋅ 0
## 8.1 RDD设计背景 在实际应用中,存在许多迭代式计算,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销...

3-spark sql by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76098? 2023-01-07 ⋅ 1403 ⋅ 0 ⋅ 0
## 概述 Spark为**结构化数据**处理引入了一个称为Spark SQL的编程模块。它提供了一个称为**DataFrame(数据框)**的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。 SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS...

4-安装 sparksql by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76100? 2023-01-07 ⋅ 1692 ⋅ 0 ⋅ 0
众所周知,CDH为了推自家的Impala,阉割掉了Spark的spark-sql工具,虽然很多时候我们并不需要spark-sql,但是架不住特殊情况下有使用它的时候,这个根据项目或者团队(个人)情况而异。我这边就是因为项目原因,需要使用spark-sql,因此从网上各种查资料,折腾了好几天,...

1.数据仓库理论 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76102? 2023-01-07 ⋅ 1790 ⋅ 0 ⋅ 0
# 1 数据仓库概念 ​ 数据仓库(dataware house),一般简称DW或DWH,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它能为企业提供⼀定的BI(商业智能:例如数据挖掘、数据分析和数据报表)能⼒。 ​ 199...

2.数据仓库应用场景 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76103? 2023-01-07 ⋅ 1614 ⋅ 0 ⋅ 0
# 电商行业应用 电商数仓收集各类业务日志、用户行为日志以及商品实体表等信息,按照实际业务需求设计模型,将数据规范化摆放、汇总,针对下游需求建设数据集市。如地域消费特点分析、客户消费习惯、分析影响消费因素、分析消费特点,根据数据仓库数据进行数据挖掘...

5.scala(野牛主讲) by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76104? 2023-01-07 ⋅ 1699 ⋅ 0 ⋅ 0
# 1 scala介绍 ![file](http://www.hainiubl.com/uploads/md_images/202301/09/19/1f077ecb92fd712367e8adb2a68a7153.png) Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。 Scala的...

2.flink cep by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76106? 2023-01-07 ⋅ 1616 ⋅ 0 ⋅ 0
# flink cep ## 什么是 CEP > 非确定有限状态机 > > 复杂事件处理(Complex Event Processing,CEP) > > Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库 > > CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据 中重要的部分 >...

3.flinksql by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76107? 2023-01-07 ⋅ 1610 ⋅ 1 ⋅ 0
# flinksql课件 **table api和sql介绍** > Apache Flink 具有两个关系 API——Table API 和 SQL——用于统一流和批处理。Table API 是用于 Scala 和 Java 的语言集成查询 API,它允许以非常直观的方式组合来自关系运算符(例如选择、过滤和联接)的查询。Flink 的...

1. flink by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76113? 2023-01-07 ⋅ 2136 ⋅ 0 ⋅ 0
# 1.flink介绍、反压原理、内存管理、对比spark、flink的生态和应用场景以及未来 ## 1.为什么要学习Flink 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计...

1 python 开发环境安装与 python 基础 1 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76119? 2023-01-07 ⋅ 1554 ⋅ 0 ⋅ 0
# **1 python简介** **python之父:** ![file](http://www.hainiubl.com/uploads/md_images/202301/07/18/image-20230107180111441.png) ​ python的创始人为吉多·范罗苏姆(Guido van Rossum)(龟叔)。1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹 打发...

2 python 基础 2 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76120? 2023-01-07 ⋅ 1518 ⋅ 0 ⋅ 0
# **5 数据结构** Python中有内建的数据结构——列表(list)、元组(tuple)、字典(dict)、集合(set) ## 5.1 列表 ​ list是处理一组有序的数据结构,即你可以在一个列表中存储一个 序列 的数据,并且<font color='red'>里面的值是能够被改变的</font>。 ​...

3 多线程 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76121? 2023-01-07 ⋅ 1546 ⋅ 0 ⋅ 0
# 12 java多线程 ## 11.1 进程和线程 **进程:** ​ 内存中运行的一个应用程序。 ​ 是系统进行资源分配和调度的一个独立单位。 **线程:** ​ 进程中的执行流程。 ​ 一个程序至少有一个进程,一个进程至少有一个线程。 **多线程:** ​ 在一个进程内,并发有...

4 python日志模块 by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76122? 2023-01-07 ⋅ 1605 ⋅ 0 ⋅ 0
# **13 python程序的命名规则** **1)单词首字母大写,驼峰规则** 类名 **2)小写字母,单词之间用_分割** 模块名、包名、变量名、函数名、方法名 **3)大写字母,单词之间用_分割** 常量名 **4)以__开头(2个下划线),但不以\_\_结尾** 私...

[教程] JavaSE 教程(10 天轻松学会 java) by 青牛 青牛

https://hainiubl.com/topics/76136? 2023-01-09 ⋅ 8710 ⋅ 2 ⋅ 9
> 为什么学习大数据要学习java呢?因为这是我们以后更深入的了解大数据组件,查看源码的必要语言,也是我们通往职场高薪不可或缺的工具。通过本课程可以快速的掌握大数据技术中必要的java知识,让您为接下来大数据的学习打下坚实的基础。 **零基础可学** **课程视...

MySQL 篇(超牛主讲) by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76137? 2023-01-09 ⋅ 1710 ⋅ 0 ⋅ 0
**配套笔记课件地址:** 1. MySQL概述:http://www.hainiubl.com/topics/76013 2. 表关系,多表查询,视图:http://www.hainiubl.com/topics/76015 3. JDBC:http://www.hainiubl.com/topics/76017 4. maven:http://www.hainiubl.com/topics/76019 5. 函数:http:/...

MySQL 篇(薪牛主讲) by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76138? 2023-01-09 ⋅ 1465 ⋅ 0 ⋅ 0
**配套笔记课件地址:** 1. 数据库基本概念,MySQL安装,约束:http://www.hainiubl.com/topics/76005 2. sql语句,多表查询,索引:http://www.hainiubl.com/topics/76007 3. jdbc:http://www.hainiubl.com/topics/76009 4.maven:http://www.hainiubl.com/topics/7...

Linux(超牛主讲) by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76139? 2023-01-09 ⋅ 1682 ⋅ 0 ⋅ 0
**配套笔记课件地址:** 1. Linux常用命令:http://www.hainiubl.com/topics/76023 2. Shell编程:http://www.hainiubl.com/topics/76024 **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618

Linux(薪牛主讲) by 阿布都的都 阿布都的都

https://hainiubl.com/topics/76140? 2023-01-09 ⋅ 1658 ⋅ 0 ⋅ 0
**配套笔记课件地址:** 1.Linux基础,安装:http://www.hainiubl.com/topics/76028 2.Linux操作:http://www.hainiubl.com/topics/76027 **[海汼部落云平台](https://cloud.hainiubl.com)**产品使用教程:https://www.hainiubl.com/topics/76618