Spark 编程基础(三

分享 manba ⋅ 44 阅读

Spark编程基础(三)
RDD与RDD之间的操作
使用union()方法合并多个RDD
union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。
代码3-13 union()方法示例

创建RDD

val rdd1 = sc.parallelize(List(('a', 1),('b', 2),('c', 3)))
val rdd2 = sc.parallelize(List(('a', 1),('d', 4),('e', 5)))

通过union()方法合并两个RDD

rdd1.union(rdd2).collect
使用filter()方法进行过滤
● filter()方法是一种转换操作,用于过滤RDD中的元素。
● filter()方法需要一个参数,这个参数是一个用于过滤的函数,该函数的返回值为Boolean类型。
● filter()方法将返回值为true的元素保留,将返回值为false的元素过滤掉,最后返回一个存储符合过滤条件的所有元素的新RDD。
代码3-14 filter()方法示例

创建RDD

val rdd1 = sc.parallelize(List(('a', 1),('b', 2),('c', 3)))

通过filter()方法过滤其中每个元素元组第二个值小于等于1的元素

rdd1.filter(_._2 > 1).collect
rdd1.filter(x => x._2 > 1).collect

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-manba,http://hainiubl.com/topics/76697
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter