第 6 章 Spark 编程进阶
会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。
- 累加器用来对信息进行聚合
- 广播变量用来高效分发较大的对象
在已有的 RDD 转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。
会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。
在已有的 RDD 转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。