PySpark 随机森林回归机器学习——一种实用的方法,第 7 部分
PySpark 随机森林回归机器学习——一种实用的方法,第 7 部分
brilliantprogrammer
大家好,在之前的博客中,我们学习了使用 pyspark 的线性回归算法,在本博客中,我们还将更具体地学习使用 PySpark 的机器学习 随机森林回归 并且还执行一些实际操作。
注:启动步骤同 以前的教程 l,如果您不想再次运行它们,请直接跳到 Random Forest Regressor 部分。
首先,您必须从 kaggle 下载 Admission_Prediction.csv 数据集 链接在这里。
导入所需的库并创建 SparkSession。
使用的库
- 向量汇编器: 将多列合并为向量列的特征转换器。
- 矢量索引器: 自动识别分类特征(默认行为)。
- 随机森林回归器: 用于回归的随机森林学习算法。它支持连续和分类特征。
- 回归评估器: 回归评估器,它需要输入列预测、标签和可选的权重列
读取数据
清理数据
删除不需要的列并重命名某些列。
检查 Null 值并替换它们
将我们所有的特征组装到一个向量中
随机森林回归器
用于索引 Vector 数据集中的分类特征列的类。
拆分数据
按 7:3 的比例将数据拆分为测试和训练。
应用 RandomForestRegressor
训练模型
对测试数据进行预测
现在,我们完成了预测,我们将检查 RMSE 值和 R2 值。
到这里,我们就结束了本教程。
谢谢大家阅读这个博客。在这篇博客中,我们现在学习了使用 PySpark 的实用随机森林回归器,我们将在下一部分学习 数据块 平台。
如果您喜欢这个博客,请关注我的下一部分并鼓掌。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明