海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • 海牛部落 Hadoop 系列教程(二):批量操作多台服务器

    @微步客 hadoop_op1.zip,是一个多台批量脚本程序

  • hadoop 启动从机显示 0.0.0.0:50010 端口被占用?求大神解决!!!

    @好好学习 副本数没有要求,但是你得在site文件里配置上namenode地址。这样你的从机好知道从那里查找主节点

  • 请问两张大表进行 join,要求优化,不用 hive 的分桶,用算法实现,怎么实现呢?

    是自己实现partioner吗?那要先分析join的key的分布情况,再自定义算法

  • hadoop 启动从机显示 0.0.0.0:50010 端口被占用?求大神解决!!!

    第一从机不用写slaves,第二你从机的hdfs-site.xml配置错了没有找对主机

  • Hadoop 部署集群时节点无法启动问题?

    @好好学习 是的

  • dataframe 写入 impala 语法错误,怎么解决?

    没搞懂,你写入怎么用create语句了?

  • hbase scan 查询的问题?

    @ruiqi 那就是你查询的时候遇到region split了,这样hbase性能就很差了,get还不如scan那,先分析rowkey的分布在决定怎么预分region,把gc日志打出来吧,看看时间

  • 在 impala 的 shell 命令窗口中修改表的字段类型,查询数据报错?

    @liwei131313 用avro格式,可以支持改表

  • hbase scan 查询的问题?

    @ruiqi 这要看瓶颈在哪里,是在硬盘io那,还是regionserver的gc哪里,另外自动split关了没?

  • Spark 对于大量数据 sort 之后,collect 内存不够,怎么将所有排序完的数据有序输出?

    自定义一个partitioner,然后再sort以后将rdd直接存储到hdfs上,别collect到driver上

  • 我在 hive 中建立表,再到 impala-shell 中却找不到该表?

    不执行那个命令就加载不上metadata呗,是不是你的配置,或者启动命令缺少参数?

  • hbase scan 查询的问题?

    @ruiqi 如果hbase没有出错,那只能是你中间数据处理的问题,中间步骤多加点counter用于观察。有些问题在本地跑的时候是看不出来的

  • hbase scan 查询的问题?

    你startRow和stopRow是怎么设置的?数据怎么能丢,除非设置了过期时间

  • spark 连接 impala 可以怎么连接?

    可以通过impala的jdbc方式连接

  • hbase 热点问题不理解?

    split region时这个region会暂时不提供服务,所以为了保证性能,会选择闲时手动执行hbase的region split

  • «
  • 1
  • 2
  • ...
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2