10.2 架构与抽象

Spark Streaming 使用“微批次”的架构,把流式计算当作一系列连续的小规模批处理来对待。

Spark Streaming 从各种输入源中读取数据,并把数据分组为小的批次。
新的批次按均匀的时间间隔创建出来。
在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中。
在时间区间结束时,批次停止增长。

时间区间的大小是由批次间隔这个参数决定的。
批次间隔一般设在 500 毫秒到几秒之间,由应用开发者配置。
每个输入批次都形成一个 RDD,以 Spark 作业的方式处理并生成其他的 RDD。