SparkFastDataAnalysis
《Spark 快速大数据分析》学习笔记
View on GitHub
1.1 Spark是什么
Spark 是一个用来实现快速而通用的集群计算的平台。
速度
扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。
能够在内存中进行计算,因而更快。
场景
批处理
迭代算法
交互式查询
流处理
接口
提供基于 Python、Java、Scala 和 SQL 的简单易用的 API
内建的丰富的程序库
能和其他大数据工具密切配合使用