海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

451 关注者
2255 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2255)
  • MapReduce 编程系列

    @HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值,可以减少网络数据的传输
    reduce的排序在suffer的环节中

  • MapReduce 编程系列

    @HiHadoop 关注我们社区,我们这里有一大堆大数据相关知识

  • MapReduce 编程系列

    @HiHadoop mapreduce的话需要两步,spark的话比较好做map->countByKey->sort->top就完事了

  • MapReduce 编程系列

    @HiHadoop 恩,道理都是一样的

  • MapReduce 编程系列

    @HiHadoop 这个频次你可以用wordcount进行统计,比如给你一组词
    a a a b
    你应该先写一个mapreducer的wordcount统计其中a出现3次,b出现1次,
    然后再写一个mapreducer依赖wordcount这个mapreducer,弄个自定义的key里面包含词和count的词,并定义好比较的方法,利用shuffle过程中排序的原理统计出其中频次最高的那个词

  • MapReduce 编程系列

    @HiHadoop 可以的你就用TextInputFormat就行

  • MapReduce 编程系列

    你可以看一下这篇文章中的mapreducer编程中的最大值和最小值
    http://hainiubl.com/topics/92

  • hadoop 如何统计每日提交的任务总数,map,reduce 数量

    是不是可以输出任务日志然后用awk等脚本过滤一下呢?

  • hadoop block missing

    先用hdfs fsck 路径文件
    看一下

  • 请青牛老师帮忙看一下

    因为文件没上传成功,看看目标文件是否已存在

  • 通过 java restful 方式操作 oozie

    file

    我觉得是这个变量为空导致的,是不是因为没有设置hadoop的配置目录

    file

  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • 海牛部落 hive 系列教程(十九):hive 介绍与安装

    Mark

  • spark 基于内存的分布式计算框架

    很细致

  • «
  • 1
  • 2
  • ...
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2