海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册

ruiqi

第 1216 位会员

0 关注者
29 评论
6 话题

  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(29)
  • 大数据存储中小文件怎么存储?

    @青牛 嗯呢明白了。我们内部决定大小文件分开,能聚合超过64m的数据全部聚合存储了。谢谢

  • 大数据存储中小文件怎么存储?

    @青牛 我们现在的数据量是每天2T的量级,这样能抗的住嘛?后期可能增加到4T的级别

  • 提问关于 5 分钟数据存储的问题?

    @青牛 嗯呢 好的明白了

  • 提问关于 5 分钟数据存储的问题?

    @青牛 尴尬了。好像spark也可以直接从socket接收数据。。谢谢 我去查查相关资料

  • 提问关于 5 分钟数据存储的问题?

    @青牛 因为是从c 客户端发送过来的。那边是通过socket发过来的。我们直接用java接收的

  • 海牛部落 hive 系列教程(二十):hive 数据类型、运算符、建库、建表

    学习

  • 海牛部落 hive 系列教程(十九):hive 介绍与安装

    学习

  • 海牛部落 oozie 系列教程(三十三):oozie 编译和安装

    看看

  • 海牛部落 spark 系列教程(四十):RDD 编程二次排序、mapjoin

    学习

  • hbase scan 查询的问题?

    @青牛 嗯呢好的

  • hbase scan 查询的问题?

    @青牛 自动split没有关。我们设置的是超过30G的话 自动分。 gc调的是128g 内存跑不了这么多。数据插入的时候负载 不高主要是查询。 我们rowKey 没有 预分区 ,如果这么想预分区的话 怎么分呢?后来今天换成get的方式查询 ,负载 请求次数太多 。用scan 也是同样的方式。

  • hbase scan 查询的问题?

    @青牛 嗯 。。明白了。对了我们最近放弃 使用scan的方式查询hbase ,就算用spark 换成get 查询 对于hbase 的负载特别高。 现在集群环境已经是15台 设备了。 入库数据在5分钟1亿到3亿 数据 ,30g数据量最低。 然后再加上读的话 hbase 就承受不住了。我们想调优的话 应该怎么做。 从查询调还是 插入那里呢?

  • hbase scan 查询的问题?

    @青牛 我问的时候说设置了startRow 和 stopRow 。因为我们rowkey 是 ip的 long 型 从 0 到42亿多,我分成 0 到400万 这么叠加 进行设置startRow 和stopRow的

  • hbase scan 查询的问题?

    @青牛 过期时间没有设置 查询的时候设置了范围。在全表查询的时候 我们 是用 long型 ip值作为rowkey的 。所以在查询的时候没有设置startRow 和 stopRow 。我们从hbase里面查询出来数据后 进行数据处理,然后重新入库 到里面 但是 根据入库的数据跟 基础数据上 对应不上。 处理过程校验过了 没有出错。

  • 海牛部落 spark 系列教程(三十八):spark 介绍、RDD 原理、spark 开发环境搭建

    学习

  • «
  • 1
  • 2
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2