Spark编程基础(三)
RDD与RDD之间的操作
使用union()方法合并多个RDD
union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。
代码3-13 union()方法示例
创建RDD
val rdd1 = sc.parallelize(List(('a', 1),('b', 2),('c', 3)))
val rdd2 = sc.parallelize(List(('a', 1),('d', 4),('e', 5)))
通过union()方法合并两个RDD
rdd1.union(rdd2).collect
使用filter()方法进行过滤
● filter()方法是一种转换操作,用于过滤RDD中的元素。
● filter()方法需要一个参数,这个参数是一个用于过滤的函数,该函数的返回值为Boolean类型。
● filter()方法将返回值为true的元素保留,将返回值为false的元素过滤掉,最后返回一个存储符合过滤条件的所有元素的新RDD。
代码3-14 filter()方法示例
创建RDD
val rdd1 = sc.parallelize(List(('a', 1),('b', 2),('c', 3)))
通过filter()方法过滤其中每个元素元组第二个值小于等于1的元素
rdd1.filter(_._2 > 1).collect
rdd1.filter(x => x._2 > 1).collect