1.3 Spark的用户和用途
Spark 是一个用于集群计算的通用计算框架。
数据科学任务
Spark 通过一系列组件支持各种数据科学任务。
- Spark shell 通过提供 Python 和 Scala 的接口,使我们方便地进行交互式数据分析。
- Spark SQL 也提供一个独立的 SQL shell,我们可以在这个 shell 中使用 SQL 探索数据,也可以通过标准的 Spark 程序或者 Spark shell 来进行 SQL 查询。
- 机器学习和数据分析则通过 MLlib 程序库提供支持。
- Spark 还能支持调用 R 或者 Matlab 写成的外部程序。
数据处理应用
Spark 为开发用于集群并行执行的程序提供了一条捷径。
通过封装,Spark 不需要开发者关注如何在分布式系统上编程这样的复杂问题,也无需过多关注网络通信和程序容错性。