海牛部落 hadoop 系列教程（十六）：mapreducer 编程，自定义 partition 实现整体排序、自定义组合 key 实现二次排序、assembly 打包方式、集群运行 mr 程序

教程 ⋅ 青牛 ⋅ 最后回复由 admin123 19277 阅读

1. 多个reducer实现整体排序

先观察数据情况，根据数据的分布去设计partitioner

file

这组数据中大于100的只有2个，大部分数据还是在小于100的区间，所以就拿100当个分界点
去算0到100之间的数取分区ID的方法，先找临界点。算法是(100/reducer个数) + 1
然后用输入的key与分区临界点相除取整，最后算出输入的key属于那个分区ID
当输入key大于100时把数据分到最后一分区里。
如果有2个reducer
file yixia

以下内容回帖刷新可见………………

回复帖子，然后刷新页面即可查看隐藏内容

回复数量: 37

luxihao

666
scr123

hh
王者归来

学习了
cycycy

学习学习
wwwwwwq

学习
黑天鹅

学习

admin123

xuexi

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter

海牛部落 hadoop 系列教程（十六）：mapreducer 编程，自定义 partition 实现整体排序、自定义组合 key 实现二次排序、assembly 打包方式、集群运行 mr 程序

1. 多个reducer实现整体排序

以下内容回帖刷新可见………………

作者：青牛

青牛的其他话题

分类下其他主题

随机推荐话题

海牛部落 hadoop 系列教程（十六）：mapreducer 编程，自定义 partition 实现整体排序、自定义组合 key 实现二次排序、assembly 打包方式、集群运行 mr 程序

1. 多个reducer实现整体排序

以下内容回帖刷新可见………………

添加附言

作者：青牛

青牛 的其他话题

分类下其他主题

随机推荐话题

青牛的其他话题