Spark 编程基础(二)

分享 manba ⋅ 43 阅读

概念
Spark RDD提供了丰富的操作方法用于操作分布式的数据集合,包括转换操作和行动操作两部分。
转换操作可以将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算;
行动操作是用于触发转换操作的操作,这时才会真正开始进行计算。
使用map()方法转换数据
map()方法是一种基础的RDD转换操作,可以对RDD中的每一个数据元素通过某种函数进行转换并返回新的RDD。map()方法是转换操作,不会立即进行计算。
代码3-6 map()方法示例

创建RDD

val distData = sc.parallelize(List(1, 3, 45, 3, 76))

map()方法求平方值

val sq_dist = distData.map(x => x * x)

使用sortBy()方法进行排序
代码3-7 sortBy()方法示例

创建RDD

val data = sc.parallelize(List((1, 3),(45, 3),(7, 6)))

使用sortBy()方法对元组的第二个值降序排序,分区设置为1

val sort_data = data.sortBy(x => x._2, false, 1)

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-manba,http://hainiubl.com/topics/76695
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter