2020 年 4月 9 日随笔档案 - 桌子哥

2020年4月9日

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

摘要：情况一：二元分类这部分使用的数据集是判断网页是暂时的还是长青的。因为涉及到了文本的信息，所以需要进行文本的数字化和向量化。在这部分中，机器学习分为三个部分，第一部分是建立机器学习流程pipeline，第二部分是训练，第三部分是预测。在建立机器学习流程pipeline中包含4个阶段，如下所示：阅读全文

posted @ 2020-04-09 17:05 桌子哥阅读(906) 评论(0) 推荐(0) 编辑