SparkFastDataAnalysis
《Spark 快速大数据分析》学习笔记
View on GitHub
第 11 章 基于 MLlib 的机器学习
MLlib 是 Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。
MLlib 中包含许多机器学习算法,可以在 Spark 支持的所有编程语言中使用。
本章目录
概述
系统要求
机器学习基础
数据类型
算法
5.1
特征提取
5.2
统计
5.3
分类与回归
5.4
聚类
5.5
协同过滤与推荐
5.6
降维
5.7
模型评估
一些提示与性能考量
6.1 准备特征
6.2 配置算法
6.3 缓存 RDD 以重复使用
6.4 识别稀疏程度
6.5 并行度
流水线 API
本章总结
概述了 Spark 的机器学习算法库。