犀牛主题列表_海汼部落 | IT学习->实战为王

犀牛

第 3221 位会员

12 关注者

38 评论

51 话题

GitHub
城市

cdh 大数据平台搭建

@Jack.Wang 所有节点都失败还是个别节点失败检查一下ntp服务时间同步这种问题大部分原因都是ntp服务的原因再看一下你的httpd服务访问一下cdh的http页面看看编译了没
cdh 大数据平台搭建

@Jack.Wang 那你手动改一下/etc/selinux/config配置文件，改成SELINUX==disabled
ClickHouse 用 sql 如何实现 upsert？

ck没有upsert，但是可以通过alter table tablename update col1=newvalue where col1=oldvalue的方式修改
CDH 集群安装问题？

点开日志看一下，情况很多。分发成功了，检查一下时钟同步，很有可能是时钟抖动大。
hdfs-client?

不做实际管理与存储，比如一些操作机，只是提交任务用，一般只是配置了hadoop的配置文件，并未加入到slave中，常见的一些大数据平台中的gateway节点就是了。
Hbase 二级索引如何选择？

最方便的是Phoenix,缺点有点不稳定，数据量大了容易吧hbase玩挂了，因为他是重构了协处理器的。solr同步可以通过lily同步，缺点是数据量级过2亿后性能下降的很明显，最稳定的是es，但是同步数据最麻烦，索引更新也是个问题，大批量索引更新只能通过新索引重命名的方式，还有es的index超过21亿量级后也需要新索引。如果组合查询条件不多可以考虑再搞一个hbase表来做二级索引，这样效率最高，但是不能实现排序，分页也有点麻烦。
spark 数据插入 es，es 压力过大？

在es里关闭索引同步，副本也可以先关掉，程序写完再打开。
spark 数据插入 es，es 压力过大？

尝试一下关闭索引同步，写完再打开
reducerbykey 的使用问题？

@忘尘误伤误伤😄 走火了
reducerbykey 的使用问题？

@赵震比如你定义成对象了，就可以用r1.field1+r2.field2了，而不能直接对象相加，除非你对象里重写了+方法。
reducerbykey 的使用问题？

@赵震把你19个字段封装成一个对象，然后点出来里面的每一个属性再操作
reducerbykey 的使用问题？

@赵震 r1和r2进去的实际是tuple19类型的，直接叫他俩相加肯定不行吧
reducerbykey 的使用问题？

@忘尘你是要把两个tuple相加吗？r1咋能加r2呢，你是不是要这个tuple里的某个元素相加。
cdh 大数据平台搭建

@忘尘如果是虚拟机的话你可以选择配单节点，所有东西都装在一个节点上就好了。我这是三台服务器：cpu:4C mem:12GB disk:100GB。
cdh没那么挑剔，弄个单节点的搞，比如你给他8GB内存、4核心cpu、50GB硬盘就够了。
怎么用 kettle 做整个离线数仓的 etl 过程怎么做？

@张孟轩是的，不用整那些花里胡哨的etl工具，etl就抽数就行了，还是Python+sql或者shell+sql最朴实无华也最靠谱。