Spark 编程基础(一)

分享 manba ⋅ 47 阅读

一、创建RDD
概念
RDD是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群各个节点中的存放元素的集合。RDD的创建有3种不同的方法。第一种是将程序中已存在的Seq集合(如集合、列表、数组)转换成RDD。第二种是对已有RDD进行转换得到新的RDD,这两种方法都是通过内存中已有的集合创建RDD的。第三种是直接读取外部存储系统的数据创建RDD。
1.1 从内存中读取数据创建RDD
● parallelize()
代码3-1 parallelize()方法创建RDD及查看分区个数

定义一个数组

val data = Array(1, 2, 3, 4, 5)

使用parallelize()方法创建RDD

val distData = sc.parallelize(data)

查看RDD默认分区个数

distData.partitions.size

设置分区个数为4后创建RDD

val distData = sc.parallelize(data, 4)

再次查看RDD分区个数

distData.partitions.size

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-manba,http://hainiubl.com/topics/76694
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter