概念
Spark RDD提供了丰富的操作方法用于操作分布式的数据集合,包括转换操作和行动操作两部分。
转换操作可以将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算;
行动操作是用于触发转换操作的操作,这时才会真正开始进行计算。
使用map()方法转换数据
map()方法是一种基础的RDD转换操作,可以对RDD中的每一个数据元素通过某种函数进行转换并返回新的RDD。map()方法是转换操作,不会立即进行计算。
代码3-6 map()方法示例
创建RDD
val distData = sc.parallelize(List(1, 3, 45, 3, 76))
map()方法求平方值
val sq_dist = distData.map(x => x * x)
使用sortBy()方法进行排序
代码3-7 sortBy()方法示例
创建RDD
val data = sc.parallelize(List((1, 3),(45, 3),(7, 6)))
使用sortBy()方法对元组的第二个值降序排序,分区设置为1
val sort_data = data.sortBy(x => x._2, false, 1)