5.2.2 JSON
- 读取 JSON 数据的最简单的方式是将数据作为文本文件读取,然后使用 JSON 解析器来对 RDD 中的值进行映射操作。
- 也可以使用我们喜欢的 JSON 序列化库来将数据转为字符串,然后将其写出去。
- 在 Java 和 Scala 中也可以使用一个自定义 Hadoop 格式来操作 JSON 数据。
示例
- Java
- Scala
- Python
读取JSON
- 将数据作为文本文件读取,然后对 JSON 数据进行解析。
这种方法假设文件中的每一行都是一条 JSON 记录。 - 读入整个文件,然后对每个文件进行解析。
有跨行的 JSON 数据。保存JSON
可以使用之前将字符串 RDD 转为解析好的 JSON 数据的库,将由结构化数据组成的 RDD 转为字符串 RDD,然后使用 Spark 的文本文件 API 写出去。