想要学习Hadoop并且也看过了一些教程,但是还是没弄明白企业级Hadoop是如何存放数据的。网上的教程基本是以csv为例子,直接放到hdfs,然后hive查询给出结果之类的。
那么企业级数据是怎么存放在Hadoop的呢,也是csv直接扔到hdfs么,还是别的格式类似Parquet然后用Spark SQL来处理?或者是把原始csv,json,xml什么的直接导入HBase?
乱了乱了,希望有经验的过来人指点,谢谢!
想要学习Hadoop并且也看过了一些教程,但是还是没弄明白企业级Hadoop是如何存放数据的。网上的教程基本是以csv为例子,直接放到hdfs,然后hive查询给出结果之类的。
那么企业级数据是怎么存放在Hadoop的呢,也是csv直接扔到hdfs么,还是别的格式类似Parquet然后用Spark SQL来处理?或者是把原始csv,json,xml什么的直接导入HBase?
乱了乱了,希望有经验的过来人指点,谢谢!
企业中一般使用lzo文件