Toggle navigation
首页
课程
镜像
云平台
部落
公告
分享
问答
登 录
注册
请问两张大表进行 join,要求优化,不用 hive 的分桶,用算法实现,怎么实现呢?
问答
⋅
ling775000
⋅ 最后回复由
青牛
4791 阅读
如题
×
添加附言
附加内容, 使用此功能的话, 会给所有参加过讨论的人发送提醒.
点赞
成为第一个点赞的人吧
回复数量:
1
青牛
海汼部落创始人,80后程序员一枚,曾就职于金山,喜欢倒腾技术做产品
#1
是自己实现partioner吗?那要先分析join的key的分布情况,再自定义算法
暂无评论~~
请注意单词拼写,以及中英文排版,
参考此页
支持 Markdown 格式,
**粗体**
、~~删除线~~、
`单行代码`
, 更多语法请见这里
Markdown 语法
支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right:
表情列表
:star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,
教程
发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
登 录
注册
Ctrl+Enter
请问两张大表进行 join,要求优化,不用 hive 的分桶,用算法实现,怎么实现呢? - 海汼部落 #大数据# @海汼部落
新 建 话 题
会 员 服 务
作者:ling775000
ling775000 的其他话题
spark 底层是 rdd,flink 底层是怎样的数据结构来维护运算?
flink 消费 kafka,保证数据不丢失且只消费一次语义,也要像 sparkstreaming 一样手动管理 offset 吗?
请问 flume client 是一定要有的角色吗?
threadlocal 和线程局部变量区别是什么?
请问 Linux 里全选的快捷键是什么呢?
请问如何去理解 MPP 架构呢?
请问 BI 开发工程师是做什么的?
毕业两年,在深圳做大数据开发能拿多少呢?
分类下其他主题
?hive 组件的远程桌面怎么打开
服务器节点上面装了 anaconda,如何在自己电脑上使用 pycharm 远程连接进行开发实验?
是不是购买过 VPN 之后就可以用自己电脑远程连接到云环境了?
关于实验室远程链接的问题?
flink1.17 安装包?
远程桌面?
镜像空间足够,但不能替换已有镜像?
hadoop 用户不存在?
随机推荐话题
[公告] 海汼部落会员服务介绍
[公告] 海汼部落新人必看
公开课回放
[公告] 海汼部落免费资料领取方法
[公告] 海汼部落云平台使用教程
关注海汼部落