海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

451 关注者
2256 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2256)
  • 关于 hbase 的 scan 的问题?

    @魏超 hbase的rowkey是按字典顺排的,这是基础问题,你这种需求得使用filter用startrow和endrow不好使。

  • storm 可不可以实时处理时间段的数据?

    @韦晓阳 你那么大的数据放到map里也不能毫秒级了吧,要是百万级的数据到可以试试,超过这个级别就用外部存储吧,hbase大批量读写的时候就不能毫秒级的了,nosql库复杂查询的能力差些,需要自己提前设计好满足所有查询条件的KV,storm不也支持窗口排序吗。大量数据一次性插入redis要使用pipeline的方式。你几千条、几万条的数据量不大插入redis挺快的。主要看redis存储的总量有多大,太大了性能指定会受影响,所以尽可能用节省内存的方式往redis里存数据,给redis开足够大的内存,让数据都缓存在内存里,这样性能才是最好的。

  • storm 可不可以实时处理时间段的数据?

    记住处部缓存吧,redis或者hbase都可以。话说这种需求用spark streaming多好

  • 求问 CoGroupRDD 求 dependencies 原理是什么?

    可以理解为如果在使用cogroup时给的partitioner与cogroup里的rdd使用的parttioner不同时就需要划分stage重新进行parttion运算,然后进行再次进行shuffle按新的partitioner算法汇总相同的key,如果给的partitioner与rdd的partitioner是相同的那就不用再次shuffle了,因为在完成cogroup所使用的rdd运算时相同key的数据已经跑到同一个executor中了。

  • 通过 HIVE 往 Elasticsearch 的外部表插入数据报错???

    这里看不出来具体啥毛病,你不妨去看一下ExecMapper.java的179行代码,看看报错原因。
    从异常来看是hive和Elasticsearch的元信息不匹配,但具体原因建议看一下原代码吧。

  • Impala 需要与 Kudu 表结合使用吗?

    Kudu对比hive性能要高很多且支持数据更新,还有一个好处是c++开发的相比java没有了GC延迟时间。在上层,可以用 Impala 查询,也可以使用其他的 SQL on Hadoop 进行查询,SparkSQL 之类的,能很好地融入 Hadoop 生态。而且接口和hbase很像也有scan等。如果你需要对实时数据做查询,如果需要快速地查询,那么 Kudu 无疑是一个好的选择。
    Impala只是操作Kudu的一个终端吧,能操作Kudu的有挺多比如刚才说的spark-sql。好处就是都是Cloudera开发的Impala与Kudu兼容性比较好吧

  • 为啥我的 sparksql 加了 where 不管用呢?

    你图上的结果是result.show()的?

  • 海牛部落 Linux 系列教程:(5) 用户与用户组管理

    @luo6994658 你这种手动指定了相同的GID,老的组不也回收了吗,只是别一种方式覆盖了。还可以理解为老的组做为备份了,新的组删除了是不是这个GID就还给老的组了。所以你可以理解为存在的意义就是被当成备份了。

  • 海牛部落 Linux 系列教程:(5) 用户与用户组管理

    @luo6994658 是的,ly用户的组是1010,现在1010这个GID是ly1组的,所以不能删因为ly用户是在ly1组的,至于为什么又跑到ly1组了?而不是在原来的ly组了呢?你想想文件是不是从上往下读的,ly和ly1有相同的gid,那当然这个gid分给最后出现的了。也就是说虽然组ID在文件里能重复,但是最终一个组ID只能给一个组,给那个?给/etc/group中最后出现的那个。

  • 海牛部落 Linux 系列教程:(5) 用户与用户组管理

    @luo6994658 你可以看一下/etc/group和/etc/passwd这两个文件

  • Hbase 如何用 javaAPI 列出列族及字段名?

    @魏超 http://www.hainiubl.com/topics/124 你看一下这里面的pagefilter用法

  • 海牛部落 hbase 系列教程(二十八):hbase 的 filter 用法,hbase 数据的批量导入

    :smile:

  • Hbase 如何用 javaAPI 列出列族及字段名?

    用scan方法啊,查出指定范围内的数据,或者查出多少条的

  • Llama 角色存在,但没有设置 YARN 依赖关系?

    @BigTester 你可以参考一下这里 https://www.cloudera.com/documentation/enterprise/5-4-x/topics/admin_llama.html

  • 后台程序如何调用 hive?

    @BigTester 可以啊,都是支持JDBC的

  • «
  • 1
  • 2
  • ...
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • ...
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2