数据仓库理论
数据仓库(dataware house),一般简称DW或DWH,1990年由比尔.恩门首次提出,数据仓库建设特征四大特点面向主题、集成性、稳定性、时变性。
-
面向主题:将上游数据(结构化、非结构化)通过数据抽取加载至数据仓库,各种业务场景划分不同业务主题,按照主题摆放进行数据存储。
-
集成性:将上游分散的数据进行抽取,进行加工与集成,汇总存储汇总层。
-
稳定性:入仓后多用于查询需求,一般数仓提供数据修改功能,数据加工过程中如果需要更新数据(如:拉链表),通常使用数据腾挪的方式实现,而不使用update的方式。
- 时变性:数据仓库是随时间变化入仓的,传统数据加载方式为T+1的方式加载(今天计算昨天的数据),提供历史某阶段数据查询功能。
数据仓库常见术语
- 数据源:上游数据,可以是结构化数据也可以是非结构化数据
- 数据加载:通过ETL程序或者ETL脚本将上游数据抽取至数据仓库,抽取方式有对库直抽或上游系统卸数至大数据平台
- 数据仓库:用于数据存储与加工处理
-
元数据管理:描述数据的数据称为元数据,如hive的元数据
-
数据血缘:用于记录数据的血缘关系,如a表与b表关联后生成c表
-
数据质量:对数仓数据质量进行管理,通常在数据入仓阶段进行数据入仓有效性检核,按照入仓标准进行筛选,在主题加工或汇总加工时进行数据合理性筛选,如字段合理性管理
-
存储策略:指数据存储的策略,如增量、全量存储,数据格式,如orc、parquet,压缩方式,如snappy
- 向下供数:数据仓库对下游系统供数,常见供数方式分为下游系统通过接口访问数仓与数仓按照下游系统需求将数据卸载成数据文件供给下游系统
数据仓库整体架构
数据仓库发展