1.2 一个大一统的软件栈

Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

各组件间密切结合的优点

Spark Core

Spark Core 实现了 Spark 的基本功能

Spark Core 中还包含了对弹性分布式数据集(简称 RDD)的 API 定义。
RDD 表示分布在多个计算节点上可以并行操作的元素集合,是Spark 主要的编程抽象。
Spark Core 提供了创建和操作这些集合的多个 API。

Spark SQL