青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

449 关注者

2253 评论

308 话题

WeChat
Website
公司
城市

海牛部落 Hadoop 系列教程（四）：编译 hadoop 源码

@JeeLearner 亲，那里不明白的可以去问答区提问
如何将 pyspark.sql.dataframe.DataFrame 类型转换为 list () list [LabelePoint ()] 用的 python

@healcool 我能刚到的办法就是把DataFrame转成rdd，然后在map里转一下吧
如何将 pyspark.sql.dataframe.DataFrame 类型转换为 list () list [LabelePoint ()] 用的 python

比如select cust_id as id from jr_data.test2_1_1 t limit 5
我用 python 写个计算 +docker+k8/swarm+ 分布式文件系统达到的效果和 hadoop 系列有什么区别？

用python加上docker也能达到分布式计算的效果，但是需要自己解决的问题相比于hadoop和spark系列要麻烦的多，比如怎么对文件的均衡切分，怎么聚合相同的key值，怎么对数据进行join操作等。另外除了写程序spark和hadoop系列还能使用sql的形式对大数据进行计算。
排序、分组的问题看不懂

你的二次排序少点东西，你可以参考这里
http://hainiubl.com/topics/97?
排序、分组的问题看不懂

这个CompareTo不是决定是否是升序的，它是用于比较对象的，你这里是用于二次排序的比较，至于为什么升序，shuffle到reducer过程默认就是升序的。那问题来了升降序是由什么决定的呢？可以自己实现一个比较器来决定（不实现也会默认有一个，就是默认升序那个）到reducer中的key是升序还是降序。
MapReduce 编程系列

@HiHadoop 在map排序只能使用集合对象，会用到大量堆内存，而且数据量多会生成多个map进行并行化处理，所以即使能排序也只是拿的数据的局部排序，所以你的需求一个任务做，也只适应小于一个block块的数据。搞的是大数据不能这么想。
海牛部落 hadoop 系列教程（十六）：mapreducer 编程，自定义 partition 实现整体排序、自定义组合 key 实现二次排序、assembly 打包方式、集群运行 mr 程序

HOHO
MapReduce 编程系列

@HiHadoop 太忙了，平时没时间上QQ
MapReduce 编程系列

@HiHadoop reducer里面放一个list，然后在cleanup里输出
信息被删除或无权限查看
sparkstreaming

参考这个教程，http://hainiubl.com/topics/197
sparkstreaming

spark-streaming有个windows窗口函数可以解决你的问题
MapReduce 编程系列

@HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值，可以减少网络数据的传输
reduce的排序在suffer的环节中
MapReduce 编程系列

@HiHadoop 关注我们社区，我们这里有一大堆大数据相关知识