第 6 章 Spark 编程进阶

会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。

在已有的 RDD 转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。

本章目录

  1. 简介
  2. 累加器
    2.1 累加器与容错性
    2.2 自定义累加器
  3. 广播变量
  4. 基于分区进行操作
  5. 与外部程序间的管道
  6. 数值 RDD 的操作

    本章总结

    • 介绍了 Spark 编程中的一些进阶特性