Spark Pipeline

　　一个简单的Pipeline，用作estimator。Pipeline由有序列的stages组成，每个stage是一个Estimator或者一个Transformer。

　　当Pipeline调用fit，stages按顺序被执行。如果一个stage是一个Estimator，将调用Estimator的fit方法，使用“输入dataset”来拟合一个模型。然后，作为transformer的model将dataset变换为下一个stage的输入。

　　如果一个stage是Transformer，调用Transformer的transform方法以产生下一个stage使用的数据集。

　　从Pipeline拟合的model是PipelineModel，其由fitted models和transformers组成如果没有stages，pipeline充当身份transformer。

posted @ 2016-12-22 21:37 智能先行者阅读(1698) 评论(0) 编辑收藏举报

刷新页面返回顶部

智能先行者