ruiqi 主题列表_海汼部落 | IT学习->实战为王

ruiqi

第 1216 位会员

0 关注者

29 评论

6 话题

大数据存储中小文件怎么存储？

@青牛嗯呢明白了。我们内部决定大小文件分开，能聚合超过64m的数据全部聚合存储了。谢谢
大数据存储中小文件怎么存储？

@青牛我们现在的数据量是每天2T的量级，这样能抗的住嘛？后期可能增加到4T的级别
提问关于 5 分钟数据存储的问题?

@青牛嗯呢好的明白了
提问关于 5 分钟数据存储的问题?

@青牛尴尬了。好像spark也可以直接从socket接收数据。。谢谢我去查查相关资料
提问关于 5 分钟数据存储的问题?

@青牛因为是从c 客户端发送过来的。那边是通过socket发过来的。我们直接用java接收的
海牛部落 hive 系列教程（二十）：hive 数据类型、运算符、建库、建表

学习
海牛部落 hive 系列教程（十九）：hive 介绍与安装

学习
海牛部落 oozie 系列教程（三十三）：oozie 编译和安装

看看
海牛部落 spark 系列教程（四十）：RDD 编程二次排序、mapjoin

学习
hbase scan 查询的问题？

@青牛嗯呢好的
hbase scan 查询的问题？

@青牛自动split没有关。我们设置的是超过30G的话自动分。 gc调的是128g 内存跑不了这么多。数据插入的时候负载不高主要是查询。我们rowKey 没有预分区，如果这么想预分区的话怎么分呢？后来今天换成get的方式查询，负载请求次数太多。用scan 也是同样的方式。
hbase scan 查询的问题？

@青牛嗯。。明白了。对了我们最近放弃使用scan的方式查询hbase ,就算用spark 换成get 查询对于hbase 的负载特别高。现在集群环境已经是15台设备了。入库数据在5分钟1亿到3亿数据，30g数据量最低。然后再加上读的话 hbase 就承受不住了。我们想调优的话应该怎么做。从查询调还是插入那里呢？
hbase scan 查询的问题？

@青牛我问的时候说设置了startRow 和 stopRow 。因为我们rowkey 是 ip的 long 型从 0 到42亿多，我分成 0 到400万这么叠加进行设置startRow 和stopRow的
hbase scan 查询的问题？

@青牛过期时间没有设置查询的时候设置了范围。在全表查询的时候我们是用 long型 ip值作为rowkey的。所以在查询的时候没有设置startRow 和 stopRow 。我们从hbase里面查询出来数据后进行数据处理，然后重新入库到里面但是根据入库的数据跟基础数据上对应不上。处理过程校验过了没有出错。
海牛部落 spark 系列教程（三十八）：spark 介绍、RDD 原理、spark 开发环境搭建

学习