我们项目中 有个行是40亿 需要30分钟执行一次扫描 查询 根据条件。 但是使用scan 全盘扫描的时候 过一段时间hbase 就挂掉了。 在程序中没有设置startrow 和endrow . 如果想提高性能是是需要设置startRow 和endRow吗?
我们项目中 有个行是40亿 需要30分钟执行一次扫描 查询 根据条件。 但是使用scan 全盘扫描的时候 过一段时间hbase 就挂掉了。 在程序中没有设置startrow 和endrow . 如果想提高性能是是需要设置startRow 和endRow吗?
这么大量的数据,建议你用读取hbase底层文件hfile的方式去操作。
@ruiqi 社区里有一个MR的你自己翻译用spark吧,http://hainiubl.com/topics/126?