Spark 编程基础(三)

分享 manba ⋅ 51 阅读

使用collect()方法查询数据

查看sq_dist和sort_data的结果

sq_dist.collect
sort_data.collect
代码3-9 collect(PartialFunction)操作方法示例

定义一个函数one

val one:PartialFunction[Int, String] = {case 1 => "one";case _ => "other"}

创建RDD

val data = sc.parallelize(List(2, 3, 1))

使用collect()方法,将one函数作为参数

data.collect(one).collect
使用flatMap()方法转换数据
代码3-10 flatMap()方法示例

创建RDD

val test = sc.parallelize(List("How are you", "I am fine", "What about you"))

查看RDD

test.collect

使用map分割字符串后,再查看RDD

test.map(x => x.split(" ")).collect

使用flatMap分割字符串后,再查看RDD

test.flatMap(x => x.split(" ")).collect

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-manba,http://hainiubl.com/topics/76696
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter