5.2.4 SequenceFile

SequenceFile 是由没有相对关系结构的键值对文件组成的常用 Hadoop 格式。
SequenceFile 文件有同步标记,Spark 可以用它来定位到文件中的某个点,然后再与记录的边界对齐。
这可以让 Spark 使用多个节点高效地并行读取 SequenceFile 文件。

代码