第 3 章 RDD 编程
介绍 Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)。
RDD 其实就是分布式的元素集合。
在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。
而在这一切背后,Spark 会自动将 RDD 中的数据分发到集群上,并将操作并行化执行。
本章目录
- RDD 基础
- 创建 RDD
- RDD 操作
3.1 转化操作
3.2 行动操作
3.3 惰性求值 - 向 Spark 传递函数
4.1 Python
4.2 Scala
4.3 Java - 常见的转化操作和行动操作
5.1 基本 RDD
5.2 在不同 RDD 类型间转换 - 持久化 ( 缓存 )
本章总结
- 介绍了 RDD 运行模型。
- 介绍了 RDD 的许多常见操作。