一、创建RDD
概念
RDD是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群各个节点中的存放元素的集合。RDD的创建有3种不同的方法。第一种是将程序中已存在的Seq集合(如集合、列表、数组)转换成RDD。第二种是对已有RDD进行转换得到新的RDD,这两种方法都是通过内存中已有的集合创建RDD的。第三种是直接读取外部存储系统的数据创建RDD。
1.1 从内存中读取数据创建RDD
● parallelize()
代码3-1 parallelize()方法创建RDD及查看分区个数
定义一个数组
val data = Array(1, 2, 3, 4, 5)
使用parallelize()方法创建RDD
val distData = sc.parallelize(data)
查看RDD默认分区个数
distData.partitions.size
设置分区个数为4后创建RDD
val distData = sc.parallelize(data, 4)
再次查看RDD分区个数
distData.partitions.size