MapReduce 编程系列

问答 ⋅ HiHadoop ⋅ 最后回复由青牛 14427 阅读

Hadoop经典的wordcount，如何只输入单词频率出现最高的单词呢？能否给个思路呀

回复数量: 35

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

你可以看一下这篇文章中的mapreducer编程中的最大值和最小值
http://hainiubl.com/topics/92
HiHadoop

@青牛老师，不按照你的那种输入方式行吗，就普通格式的
青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop 可以的你就用TextInputFormat就行
HiHadoop

@青牛老师，如果自定义输入类型，那单词key就应该包含单词单词出现次数，但是，这个单词出现次数应该怎么获得呢？
青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop 这个频次你可以用wordcount进行统计，比如给你一组词
a a a b
你应该先写一个mapreducer的wordcount统计其中a出现3次，b出现1次，
然后再写一个mapreducer依赖wordcount这个mapreducer，弄个自定义的key里面包含词和count的词，并定义好比较的方法，利用shuffle过程中排序的原理统计出其中频次最高的那个词
HiHadoop

@青牛老师，这个和给你一堆专利信息，让你统计计算出哪一年份或者哪一个国家的专利信息最多的道理是一样的
青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop 恩，道理都是一样的
HiHadoop

@青牛老师，这个程序没办法用一个mapreduce来处理，只能来两个吗😂😂😂
青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop mapreduce的话需要两步，spark的话比较好做map->countByKey->sort->top就完事了
HiHadoop

@青牛好的，老师谢谢您。学习到了好多知识
青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop 关注我们社区，我们这里有一大堆大数据相关知识
HiHadoop

@青牛好的，已经准备好好学了，我的专业也是大数据这块，我新手。
HiHadoop

@青牛老师，您那个求全局的算法中，为什么要在map中统计局部最大值啊，如果只输出最后一个，那岂不是传入reduce的只有一条记录了吗
HiHadoop

@HiHadoop
@青牛这样岂不是经历了三次排序，map的局部，suffer的自动，reduce的又一次排序吗

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值，可以减少网络数据的传输
reduce的排序在suffer的环节中

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter

MapReduce 编程系列

作者：HiHadoop

HiHadoop 的其他话题

分类下其他主题

随机推荐话题

MapReduce 编程系列

添加附言

作者：HiHadoop

HiHadoop 的其他话题

分类下其他主题

随机推荐话题