11.5.2 统计

MLlib 通过 mllib.stat.Statistics 类中的方法提供了几种广泛使用的统计函数,这些函数可以直接在 RDD 上使用。

除此以外,RDD 还支持 sample() 和 sampleByKey() ,使用它们可以构建出简单而分层的数据样本。