```
INSERT OVERWRITE TABLE ldldws.fact_mars_offtake PARTITION (partition_year_month)
SELECT *,DATE_FORMAT(mars_offtake_date,'yyyy-MM') AS partition_year_month
FROM
(
SELECT
t1.DOCNO AS mars_offtake_document,
t1.ODATE AS mars_offtake_...
如题,如果对一个snappy压缩过的文件进行mapreduce,是直接对压缩文件进行操作,还是框架会先对其进行解压缩呢
```
unit_cost是非空字段
update costs_20210326 t1
set t1.unit_cost=(select
case when p.promo_category='TV' then unit_cost+1
when p.promo_category='NO PROMOTION' then 0 end
from promotions p
where t1.promo_id=p.promo_id
and t1.time_id=last...
#Doris浅谈
##1. 为什么使用Doris
- 最开始我们将我们的报表数据放在mysql中, 开开心心
- 后来我们发现了mysql出现了性能问题, 聪明的我们才用了Redis 来进行存储数据, 进行查询;
或者有钱的我们升级了 polar db 来存储我们的数据
- 后来随着数据量的提升和对数据...
写的咱们课件上的第二个列子,就是flume往hdfs上写日志报错

正文进入Hbase的rowkey设计是url+time+md5,发现rowkey过长大大影响查询速度,这个怎么解决?有什么好的调优方法吗?
使用官方的 elasticsearch-hadoop往es中导入数据,数据量大的时候,spark写入es会丢失一些数据,为什么?
两台服务器(8核,128G内存),每台服务器上创建两台虚拟机,怎么用这四台虚拟机搭建集群?
```
val bsInOut = spark.read.parquet(bsInOutPath).select("report_province", "imsi", "msisdn", "countryCode", "phone7", "countyId", "laccell", "procedureStartTime", "procedureEndTime", "longitude", "latitude").rdd
val personTrace = bsInOut.map(w =...
# 数据仓库前置知识
## 数据仓库分层
使用数据分层目的,减少重复开发,隔离原始数据,按照业务需求设计层次。较为常见的为早期的四层架构(贴源层ods、明细层dwd、汇总层dws、集市层ads),如果是复杂数仓使用传统的四层架构不能满足需求,多采用五层架构(技术缓冲...
# 电商行业应用
电商数仓收集各类业务日志、用户行为日志以及商品实体表等信息,按照实际业务需求设计模型,将数据规范化摆放、汇总,针对下游需求建设数据集市。如地域消费特点分析、客户消费习惯、分析影响消费因素、分析消费特点,根据数据仓库数据进行数据挖掘,...
# 数据仓库理论
数据仓库(dataware house),一般简称DW或DWH,1990年由比尔.恩门首次提出,数据仓库建设特征四大特点面向主题、集成性、稳定性、时变性。
* 面向主题:将上游数据(结构化、非结构化)通过数据抽取加载至数据仓库,各种业务场景划分不同业务主题,按照...
# pom文件
```xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa...
# impala操作环境
* impala-shell
```sh
kinit -kt /data/impala.keytab impala
klist
impala-shell
```

```sh
# 连接impala时指定impalad,-i参数指定impalad节点(...
# impala介绍
Cloudera Imapala是一款开源的MPP架构的SQL查询引擎,它提供在hadoop环境上的低延迟、高并发的BI/数据分析,是一款开源、与Hadoop高度集成,灵活可扩展的查询分析引擎,目标是基于SQL提供高并发的即席查询。
与其他的查询引擎系统(如presto、...
【老学员硬核内推】
base地北京
大数据开发岗位JD:
做数据治理相关,对模型设计要求相对高点,有一些产品(大数据相关)思维最好;其他的大数据相关技术还好(要求一般),我们都能应付。
工作氛围:氛围相对还好一些,平时不咋加班,基本上965的样子,然后平时请假两...
我有一张记录客户初始额度的表。 和一张记录客户额度变化的流水表,这张表只有额度变化了才有记录。怎么用这两张表做拉链表呢 并没有每天的全量数据
# 1 通过 scan 读取 hbase 表
**应用场景:**
当想读取hbase表数据,做进一步数据处理或数据分析时,需要用scan 读取 HBASE 表。
**读取方法:**
...
# 1 概述
在大数据的应用场景中,hbase常用在实时读写。
写入 HBase 的方法大致有以下几种:
1)Java 调用 HBase 原生 API,HTable.add(List(Put))。
2)使用 TableOutputFormat 作为输出。
3)Bulk Load,先将数据按照 HBase 的内部数据格式生成持...
# 1 linux的常用软件安装
配置阿里云的yum源
**1) 安装wget**
```shell
[root@localhost ~]# yum -y install wget
```
**2)下载yum源的配置文件**
```shell
[root@localhost ~]# wget http://mirrors.aliyun.com/repo/Centos-7.repo
```
**3) 替换原有的yum源*...
针对于这个问题,我们来实际操作得出结论:
**建表:**
```sql
CREATE TABLE test_a(
id int,
name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
```
**生成7000003 条数据,其中7000000万条是null值,3条是有数据的**
```
1 name1
2 name2
3...
# 概述
* 为什么要引入lily和solr
在Hbase中,表的RowKey 按照字典排序, 单一的通过RowKey检索数据的方式,不再满足更多的需求,查询成为Hbase的瓶颈,希望像Sql一样快速检索数据,Hbase之前定位的是大表的存储,要进行这样的查询,往往是要通过类似Hive、Pig等系统进...
# kudu为何应运而生
kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器,kudu是介于hive与hbase中间的一个组件,解决了hive的随机读写问题,同时提高了hbase的读吞吐量与组合查询效率。
* hive痛点
hive可以很高写吞吐量,但是不支持随机读写,支持组合...
# impala操作kudu
## 建表
* hash分区
```sql
CREATE TABLE xiniu.my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;
```

# pom
```xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www...

# docker+k8s报错
##### 问题点:docker容器中或者k8s的pod中执行systemctl相关后台服务
```sh
报错信息:Failed to get D-Bus connection: Operation not permitted
```
![file](http://www.hainiubl.com/uploads/md_images/202106/04/15/image-20210527193913599-...