PySpark 随机森林回归机器学习——一种实用的方法,第 7 部分

PySpark 随机森林回归机器学习——一种实用的方法,第 7 部分

brilliantprogrammer

大家好,在之前的博客中,我们学习了使用 pyspark 的线性回归算法,在本博客中,我们还将更具体地学习使用 PySpark 的机器学习 随机森林回归 并且还执行一些实际操作。

注:启动步骤同 以前的教程 l,如果您不想再次运行它们,请直接跳到 Random Forest Regressor 部分。

首先,您必须从 kaggle 下载 Admission_Prediction.csv 数据集 链接在这里。

导入所需的库并创建 SparkSession。

使用的库

  1. 向量汇编器: 将多列合并为向量列的特征转换器。
  2. 矢量索引器: 自动识别分类特征(默认行为)。
  3. 随机森林回归器: 用于回归的随机森林学习算法。它支持连续和分类特征。
  4. 回归评估器: 回归评估器,它需要输入列预测、标签和可选的权重列

读取数据

清理数据

删除不需要的列并重命名某些列。

检查 Null 值并替换它们

将我们所有的特征组装到一个向量中

随机森林回归器

用于索引 Vector 数据集中的分类特征列的类。

拆分数据

按 7:3 的比例将数据拆分为测试和训练。

应用 RandomForestRegressor

训练模型

对测试数据进行预测

现在,我们完成了预测,我们将检查 RMSE 值和 R2 值。

到这里,我们就结束了本教程。

谢谢大家阅读这个博客。在这篇博客中,我们现在学习了使用 PySpark 的实用随机森林回归器,我们将在下一部分学习 数据块 平台。

如果您喜欢这个博客,请关注我的下一部分并鼓掌。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/39732/33592909

posted @ 2022-09-29 09:34  哈哈哈来了啊啊啊  阅读(183)  评论(0编辑  收藏  举报