hive 自定义 udaf 的缓冲区集群工作原理是什么？

问答 ⋅ Balder-Chang ⋅ 最后回复由青牛 3726 阅读

问两个问题：
1.MyAvgUDAF这个例子中，那个自定义缓冲区不擦写好像也没有问题，我们这个算平均值的例子是不是可以不擦除？
2 file 这个自定义缓冲区在分布式环境下运行时，是怎么个原理，是每一个node上都会有一个独立的MyAvgAggregationBuffer对象，这个node的map的任务共享这个缓冲区吗？最后的结果值是怎么汇总到一起的？

成为第一个点赞的人吧

回复数量: 3

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

MyAvgAggregationBuffer就是数据的bean，每map用自己的，然后在reduce进行汇总，merge方法就相当于reducer中的reduce方法，UDAF那几个方法就是个mr的过程。
Balder-Chang 持续学习，持续进步

@青牛红框中的获取缓冲区是获取这个map自已的缓冲区还是其他map的？
下面又进行了聚合，我没懂它是和缓冲区中谁的值进行聚合了？

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

@Balder-Chang 不要把它理解成缓冲区，就理解成数据的bean，过去的是自己的，底层是mr都是自己跑自己的。

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter

hive 自定义 udaf 的缓冲区集群工作原理是什么？

作者：Balder-Chang

Balder-Chang 的其他话题

分类下其他主题

随机推荐话题

hive 自定义 udaf 的缓冲区集群工作原理是什么？

添加附言

作者：Balder-Chang

Balder-Chang 的其他话题

分类下其他主题

随机推荐话题