spark 读取 hbase 40 亿数据。怎么读取性能更高?

问答 ruiqi ⋅ 于 2018-01-29 17:47:19 ⋅ 最后回复由 青牛 2018-01-30 11:41:56 ⋅ 292 阅读

我们项目中 有个行是40亿 需要30分钟执行一次扫描 查询 根据条件。 但是使用scan 全盘扫描的时候 过一段时间hbase 就挂掉了。 在程序中没有设置startrow 和endrow . 如果想提高性能是是需要设置startRow 和endRow吗?

成为第一个点赞的人吧 :bowtie:
回复数量: 6
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-01-29 18:53:29

    这么大量的数据,建议你用读取hbase底层文件hfile的方式去操作。

  • ruiqi
    2018-01-29 19:00:51

    @青牛 那请问一下 。 有没有这个相关的例子完整的呢

  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-01-29 19:34:02

    @ruiqi 社区里有一个MR的你自己翻译用spark吧,http://hainiubl.com/topics/126?

  • ruiqi
    2018-01-29 19:35:16

    @青牛 好的谢谢了

  • ruiqi
    2018-01-30 11:12:39

    @青牛 大佬还有个问题呢,因为我们是从hbase 中查询出来40亿条数据 然后根据数据处理 进行业务,然后在重新入到这个库里面。 还是用的spark 的方式 这个是不是 必须依赖很多机器才能达到30分钟内处理完呢

  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-01-30 11:41:56

    @ruiqi 是的,大约30台吧

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter