青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2255 评论

308 话题

WeChat
Website
公司
城市

MapReduce 编程系列

@HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值，可以减少网络数据的传输
reduce的排序在suffer的环节中
MapReduce 编程系列

@HiHadoop 关注我们社区，我们这里有一大堆大数据相关知识
MapReduce 编程系列

@HiHadoop mapreduce的话需要两步，spark的话比较好做map->countByKey->sort->top就完事了
MapReduce 编程系列

@HiHadoop 恩，道理都是一样的
MapReduce 编程系列

@HiHadoop 这个频次你可以用wordcount进行统计，比如给你一组词
a a a b
你应该先写一个mapreducer的wordcount统计其中a出现3次，b出现1次，
然后再写一个mapreducer依赖wordcount这个mapreducer，弄个自定义的key里面包含词和count的词，并定义好比较的方法，利用shuffle过程中排序的原理统计出其中频次最高的那个词
MapReduce 编程系列

@HiHadoop 可以的你就用TextInputFormat就行
MapReduce 编程系列

你可以看一下这篇文章中的mapreducer编程中的最大值和最小值
http://hainiubl.com/topics/92
hadoop 如何统计每日提交的任务总数，map，reduce 数量

是不是可以输出任务日志然后用awk等脚本过滤一下呢？
hadoop block missing

先用hdfs fsck 路径文件
看一下
请青牛老师帮忙看一下

因为文件没上传成功，看看目标文件是否已存在
通过 java restful 方式操作 oozie

我觉得是这个变量为空导致的，是不是因为没有设置hadoop的配置目录
信息被删除或无权限查看
信息被删除或无权限查看
海牛部落 hive 系列教程（十九）：hive 介绍与安装

Mark
spark 基于内存的分布式计算框架

很细致