1 阶段组件介绍
2 主流大数据平台介绍
2.1 CDH(Cloudera Distribution Hadoop)
由Cloudera公司开发,有开源版本与商业版本(6.3.2以前有免费版),Cloudera公司2018年和 hortonworks 公司合并,较为出名的贡献为 impala 是由Cloudera公司开源贡献给Apache基金会。大数据平台在国内各大企业中应用广泛,甚至开源版本在很多公司中都较为常见,是较为受欢迎的大数据平台之一。
cloudera公司贡献的impala在各大企业中应用也非常广泛,在cdh平台中与各组件版本兼容性较好。
备受各大企业欢迎。
2.2 CDP
是CDH平台的升级版,较为明显的升级动作将权限管理由sentry更改为ranger,增加flink组件parcel包,不用用户自己集成,可直接安装。
sentry:通过创建角色,将每个组件的权限授予给此角色。然后在用户中添加此角色,即用户具备此角色访问组件的权限。
ranger:基于策略的管理。每个组件可以添加服务Service,如Hive,然后添加自定义策略(如访问粒度Database,Table,Column),再添加组或用户访问权限(Select,Create,Drop等)
ranger强大的权限管理功能,更能贴近企业实际业务场景,较为突出的特点可以对行进行权限管理。
2.3 TDH(Transwarp Data Hub)
星环科技推出的一款大数据平台,是国内首款发行版大数据平台,是国内领先的大数据平台,没有开源版本。
突出特点:
1)对hive高度封装,推出incepter,在性能上相比hive得到明显提升,但是强制分桶,以及事务表等特性。
2)对hbase高度封装,推出hyperbase,支持SQL查询,对二级索引支持较好。
2.4 FI HD&FI MRS
由华为公司开发,较早版本为fusioninsight HD,后推出fusioninsight MRS,是当前较为成熟且在mpp数据库与混合计算领域较为领先的大数据平台,突出特点:
-
HD版本中的随机读写数据库为ELK(这个ELK不是es生态的elk,是一个单纯的数据库)
-
将kettle进行封装优化,推出loader数据加载组件
-
推出国产mpp架构数据库gaussdb 100、gaussdb 200、gaussdb 300
GauussDB 100:主打OLTP在线事务处理。用于存储/查询业务应用中活动的数据以支撑日常的业务活动。
GauussDB 200:主打OLAP在线分析处理,用于存储历史数据以支撑复杂的分析操作,侧重决策支持。
GauussDB 300:融合100 和 200 的长处。
-
独有small file小文件管理组件
- hetu engine(河图引擎)跨源计算,比如:跨多个不同的数据源计算。
2.5 飞天大数据平台
阿里大数据平台,突出特点:maxcompute离线分析模块,flink实时计算引擎,并且做了大量优化与新功能开发。
MaxCompute(大数据计算服务):
是阿里巴巴自主研发的海量数据处理平台,主要提供数据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案。
DataWorks(数据工场,原大数据开发套件):
是基于MaxCompute计算引擎的一站式大数据工场,它能帮助您快速完成数据集成、开发、治理、服务、质量、安全等全套数据研发工作。
盘古:相当于Hadoop中的HDFS
伏羲:相当于Hadoop中的YARN
MaxCompute Engine:相当于MR、Tez等计算引擎
MaxCompute和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。