青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2255 评论

308 话题

WeChat
Website
公司
城市

请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@ling775000 这个看你map输出的数据量了，拉取这个map的数据的reducer需要多长时间从map端把数据读过来。一般reducer的前33%进度都是在shuffle数据。少就快多就慢呗。再少就算是1条也至少有几秒种的时间为reducer做准备吧，比如这个reducer任务被创建起来也要时间吧。
信息被删除或无权限查看
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

partition是可以自定义的，不自定义就默认按key的hash去分，比如你的reducer数量设置为20就按key hbase去分20份key，map output的时候就把每份数据输出0到19个partition分区中，然后20个reducer每个reducer去读自己partition文件的数据。
你要先理解这个shuffle的流程。默认情况下设置多个reducer数就会有多少个partition分区。也就是reducer任务的并行度。
wordcount 之 stage 划分？

你map之前不都是没有产生宽依赖吗，你的textFile->flatMap->map在一个节点上就可以完成，reduceByKey是聚合操作，也就是说所有前置节点的数据都会shuffle到一个节点上做聚合操作。最后一个rdd产不产生stage要看是不是像reduceByKey产生宽依赖的聚合操作，如果不是聚合操作就不重新划分stage。
你看的那个书啊，不会是骗子王家林的吧
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

设置了reduce为20就是有20个patient分区。数据不倾斜并且集群资源允许的情况设置越多的reducer数越快
hbase 插入数据一直卡住的问题？

@DDDH 试试
hbase 数据插入阻塞入库数据入不进去？

使用批量put试试
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@ling775000 你说的是一个大任务分成几部小任务去跑吗？
hbase 插入数据一直卡住的问题？

超时了，ZK的timeout时间设置长点
用 sparkstreaming 消费ｋａｆｋａ的数据，怎么将数据写入到ｈｄｆｓ的输入流，采用追加的方式写入？

追加写入那就每个partation写不同的文件
kafka 启动消费者, 一直报这个，请问是个怎么情况，怎么解决？如图

图没有啊
spark 通过 Phoenix 读取 hbase 数据的问题?

用maven构建的项目吗？
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

reducer数是吗？这个看你干什么了，如果shuffle数据是均匀的那20个就够，如果不均匀多少个都没用
shell 脚本？

features和train.name是变量吗？
oraceln 能在数据库里面查到数据但是无法获取元数据？

了解的账号权限有问题不？