我们数据存储用的hbase ,然后 key 最多可能有40亿个 ip+端口构成,每次数据库中读取然后处理 修改其中的列族中的数据在插入回hbase 中 ,用javaapi再办个小时内处理不完,而且有时候还出现读取超时,甚至导致hbase 挂掉的情况,请问 这个读取和插入有没有好的方式呢?
我们数据存储用的hbase ,然后 key 最多可能有40亿个 ip+端口构成,每次数据库中读取然后处理 修改其中的列族中的数据在插入回hbase 中 ,用javaapi再办个小时内处理不完,而且有时候还出现读取超时,甚至导致hbase 挂掉的情况,请问 这个读取和插入有没有好的方式呢?
读取使用的scan全盘扫描
还有个就是 我们读取的那个表 每5分钟更新下数据 。数据量在600万左右
是不是应该把这个大批量读写的 列族 分成两个表呢?
你这么设计rowkey会造成数据的倾斜吧?建表的时候做预分region了吗?
目前你这张表只能优化优化regionserver的jvm参数,让垃圾回收速度快点