Spark Pipeline

  一个简单的Pipeline,用作estimator。Pipeline由有序列的stages组成,每个stage是一个Estimator或者一个Transformer。

  当Pipeline调用fit,stages按顺序被执行。如果一个stage是一个Estimator,将调用Estimator的fit方法,使用“输入dataset”来拟合一个模型。 然后,作为transformer的model将dataset变换为下一个stage的输入。

  如果一个stage是Transformer,调用Transformer的transform方法以产生下一个stage使用的数据集。

  从Pipeline拟合的model是PipelineModel,其由fitted models和transformers组成如果没有stages,pipeline充当身份transformer。

posted @ 2016-12-22 21:37  智能先行者  阅读(1693)  评论(0编辑  收藏  举报