11.5.2 统计
MLlib 通过 mllib.stat.Statistics 类中的方法提供了几种广泛使用的统计函数,这些函数可以直接在 RDD 上使用。
-
Statistics.colStats(rdd)
计算由向量组成的 RDD 的统计性综述,保存着向量集合中每列的最小值、最大值、平均值和方差。
这可以用来在一次执行中获取丰富的统计信息。 -
Statistics.corr( rdd, method )
计算由向量组成的 RDD 中的列间的相关矩阵,使用皮尔森相关(Pearson correlation)或斯皮尔曼相关(Spearman correlation)中的一种(method 必须是 pearson 或 spearman 中的一个)。 -
Statistics.corr( rdd1, rdd2, method )
计算两个由浮点值组成的 RDD 的相关矩阵,使用皮尔森相关或斯皮尔曼相关中的一种 (method 必须是 pearson 或 spearman 中的一个)。 -
Statistics.chiSqTest( rdd )
计算由 LabeledPoint 对象组成的 RDD 中每个特征与标签的皮尔森独立性测试(Pearson’s independence test) 结果。
返回一个 ChiSqTestResult 对象,其中有 p 值(p-value)、测试统计及每个特征的自由度。标签和特征值必须是分类的(即离散值)。 -
基本的统计函数
例如 mean() 、 stdev() 以及 sum() 。
除此以外,RDD 还支持 sample() 和 sampleByKey() ,使用它们可以构建出简单而分层的数据样本。