海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册

犀牛

第 3221 位会员

12 关注者
38 评论
51 话题

  • GitHub
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(38)
  • cdh 大数据平台搭建

    @Jack.Wang 所有节点都失败还是个别节点失败 检查一下ntp服务时间同步 这种问题大部分原因都是ntp服务的原因 再看一下你的httpd服务 访问一下cdh的http页面看看编译了没

  • cdh 大数据平台搭建

    @Jack.Wang 那你手动改一下/etc/selinux/config配置文件,改成SELINUX==disabled

  • ClickHouse 用 sql 如何实现 upsert?

    ck没有upsert,但是可以通过alter table tablename update col1=newvalue where col1=oldvalue的方式修改

  • CDH 集群安装问题?

    点开日志看一下,情况很多。分发成功了,检查一下时钟同步,很有可能是时钟抖动大。

  • hdfs-client?

    不做实际管理与存储,比如一些操作机,只是提交任务用,一般只是配置了hadoop的配置文件,并未加入到slave中,常见的一些大数据平台中的gateway节点就是了。

  • Hbase 二级索引如何选择?

    最方便的是Phoenix,缺点有点不稳定,数据量大了容易吧hbase玩挂了,因为他是重构了协处理器的。solr同步可以通过lily同步,缺点是数据量级过2亿后性能下降的很明显,最稳定的是es,但是同步数据最麻烦,索引更新也是个问题,大批量索引更新只能通过新索引重命名的方式,还有es的index超过21亿量级后也需要新索引。如果组合查询条件不多可以考虑再搞一个hbase表来做二级索引,这样效率最高,但是不能实现排序,分页也有点麻烦。

  • spark 数据插入 es,es 压力过大?

    在es里关闭索引同步,副本也可以先关掉,程序写完再打开。

  • spark 数据插入 es,es 压力过大?

    尝试一下关闭索引同步,写完再打开

  • reducerbykey 的使用问题?

    @忘尘 误伤 误伤😄 走火了

  • reducerbykey 的使用问题?

    @赵震 比如你定义成对象了,就可以用r1.field1+r2.field2了,而不能直接对象相加,除非你对象里重写了+方法。

  • reducerbykey 的使用问题?

    @赵震 把你19个字段封装成一个对象,然后点出来里面的每一个属性再操作

  • reducerbykey 的使用问题?

    @赵震 r1和r2进去的实际是tuple19类型的,直接叫他俩相加肯定不行吧

  • reducerbykey 的使用问题?

    @忘尘 你是要把两个tuple相加吗?r1咋能加r2呢,你是不是要这个tuple里的某个元素相加。

  • cdh 大数据平台搭建

    @忘尘 如果是虚拟机的话你可以选择配单节点,所有东西都装在一个节点上就好了。我这是三台服务器:cpu:4C mem:12GB disk:100GB。
    cdh没那么挑剔,弄个单节点的搞,比如你给他8GB内存、4核心cpu、50GB硬盘就够了。

  • 怎么用 kettle 做整个离线数仓的 etl 过程怎么做?

    @张孟轩 是的,不用整那些花里胡哨的etl工具,etl就抽数就行了,还是Python+sql或者shell+sql最朴实无华也最靠谱。

  • «
  • 1
  • 2
  • 3
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2