参考这个教程,http://hainiubl.com/topics/197
spark-streaming有个windows窗口函数可以解决你的问题
@HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值,可以减少网络数据的传输 reduce的排序在suffer的环节中
@HiHadoop 关注我们社区,我们这里有一大堆大数据相关知识
@HiHadoop mapreduce的话需要两步,spark的话比较好做map->countByKey->sort->top就完事了
@HiHadoop 恩,道理都是一样的
@HiHadoop 这个频次你可以用wordcount进行统计,比如给你一组词 a a a b 你应该先写一个mapreducer的wordcount统计其中a出现3次,b出现1次, 然后再写一个mapreducer依赖wordcount这个mapreducer,弄个自定义的key里面包含词和count的词,并定义好比较的方法,利用shuffle过程中排序的原理统计出其中频次最高的那个词
@HiHadoop 可以的你就用TextInputFormat就行
你可以看一下这篇文章中的mapreducer编程中的最大值和最小值http://hainiubl.com/topics/92
是不是可以输出任务日志然后用awk等脚本过滤一下呢?
先用hdfs fsck 路径文件 看一下
因为文件没上传成功,看看目标文件是否已存在
我觉得是这个变量为空导致的,是不是因为没有设置hadoop的配置目录