5.2 文件格式
Spark支持的一些常见格式
格式名称 | 结构化 | 备注 |
---|---|---|
文本文件 | 否 | 普通的文本文件,每行一条记录 |
JSON | 半结构化 | 常见的基于文本的格式,半结构化;大多数库都要求每行一条记录 |
CSV | 是 | 非常常见的基于文本的格式,通常在电子表格应用中使用 |
SequenceFiles | 是 | 一种用于键值对数据的常见 Hadoop 文件格式 |
Protocol buffers | 是 | 一种快速、节约空间的跨语言格式 |
对象文件 | 是 | 用来将Spark作业中的数据存储下来以让共享的代码读取。改变类的时候它会失效,因为它依赖于Java序列化 |
除了 Spark 中直接支持的输出机制,还可以对键数据(或成对数据)使用 Hadoop 的新旧文件 API。
由于 Hadoop 接口要求使用键值对数据,所以也只能这样用,即使有些格式事实上忽略了键。
对于那些会忽视键的格式,通常使用假的键(比如 null )。