网上看了解释比较晕
网上看了解释比较晕
kettle可以通过图形化拖放方式设计数据处理环节也可集成其他大数据组件进行扩展,比如可用于快速实现ETL等流程。
kettle国内常用的ETL工具,ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库.在企业中常用来做一些抽取excel文件数据导入数据库,在数据库中关联其他表之类的做一些转换操作。基本sql能做的,它都能做,还能设置一些定时的任务去跑,ETL一般属于数据仓库这个方向。
@歌唱祖国 那效率和sqoop hive等数据仓库清洗手段来讲,哪个快呢?是不是数据量小用kettle,数据量大就跑程序?
@ling775000 数据量大的话还是用大数据的工具来清洗好一点,sqoop用的比较多的是将关系型数据库的数据导入到非关系型的数据库。hive里面做清洗的话首先还是要数据先入库吧,就算是外部表的话,数据的schema还是要一致才行。况且hive还不能做太复杂的逻辑。在数据入库这方面kettle里面有很多的组件,只需要灵活运用就好了。我现在用最多的是通过talend将excel里面的数据导入到数据库,再通过逻辑将数据分层。