5.5.3 HBase

由 于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现,Spark 可以通过 Hadoop 输入格式访问 HBase。
这个输入格式会返回键值对数据:

要将 Spark 用于 HBase,你需要使用正确的输入格式调用 SparkContext.newAPIHadoopRDD 。

TableInputFormat 包含多个可以用来优化对 HBase 的读取的设置项,比如将扫描限制到一部分列中,以及限制扫描的时间范围。

代码