现在有个需求就是 有张表,表的字段 有时候会增加 或者减少, 用大数据的话 采用什么方式合理。我想过用HBASE,但是考虑到后续需要对这些数据进行数据分析,HBASE在数据分析这块儿 又没有什么优势。所以有些顾虑,不知道朋友有什么好的方法没 。有知道的朋友还请指点下
现在有个需求就是 有张表,表的字段 有时候会增加 或者减少, 用大数据的话 采用什么方式合理。我想过用HBASE,但是考虑到后续需要对这些数据进行数据分析,HBASE在数据分析这块儿 又没有什么优势。所以有些顾虑,不知道朋友有什么好的方法没 。有知道的朋友还请指点下
你的需求是宽列存储,所以用hbase比较合适,对数据的分析用SQL形式的比较多,hbase的数据存储在hdfs上所以可以读取底层的hfile文件转生hive用的文件就可以实现SQL查询了,所以用数据量大又是宽表结构就用hbase吧
当然hbase还有impala的解决方案
@青牛 我插一句,就是他表里面字段是可变的,非结构化的数据即使用hive去映射,能用sql进行数据分析清洗吗?
恩恩。@青牛 ,就是。存到 Hbase里面的数据字段是变化的。非结构的数据也能在 hive中映射成表嘛 ?
@ling775000 既然用到sql那你必须知道是什么字段,如果字段变化太多可以用hive的map类型做映射
@青牛 那平时非结构化数据怎么进行数据清洗,数据分析呢
@ling775000 清洗之后转成结构化数据喽,然后才能分析起来方便