9.6 Spark SQL 性能

Spark SQL 可以利用其对类型的了解来高效地表示数据。

当缓存数据时,Spark SQL 使用内存式的列式存储。
这不仅仅节约了缓存的空间,而且尽可能地减少了后续查询中针对某几个字段查询时的数据读取。

性能调优选项

打开 codegen 选项的 Beeline 命令:

beeline> set spark.sql.codegen=true;
SET spark.sql.codegen=true
spark.sql.codegen=true
Time taken: 1.196 seconds

在 Scala 中打开 codegen 选项的代码:

conf.set("spark.sql.codegen", "true")