11.1 概述
MLlib 的设计理念非常简单:把数据以 RDD 的形式表示,然后在分布式数据集上调用各种算法。
MLlib 引入了一些数据类型(比如点和向量),不过归根结底,MLlib 就是 RDD 上一系列可供调用的函数的集合。
如果要用 MLlib 来完成文本分类的任务(例如识别垃圾邮件),你只需要按如下步骤操作。
- 首先用字符串 RDD 来表示你的消息。
- 运行 MLlib 中的一个特征提取(feature extraction)算法来把文本数据转换为数值特征(适合机器学习算法处理);该操作会返回一个向量 RDD。
- 对向量 RDD 调用分类算法(比如逻辑回归);这步会返回一个模型对象,可以使用该对象对新的数据点进行分类。
- 使用 MLlib 的评估函数在测试数据集上评估模型。
需要注意的是,MLlib 中只包含能够在集群上运行良好的并行算法。