机器学习公司 PySpark

机器学习公司 PySpark

一个 这篇文章的想法,以及接下来将要写的文章,是展示将 PySpark(一种在大数据中广泛使用的工具)应用于机器学习算法的用法。所研究的工具是 Apache Spark 的接口,它是一个集群计算平台,为分布式编程提供 API,旨在增加对大数据块的处理( 大数据 )。

Spark Core by Apache Spache

注意:当前和未来的文章将基于 Alura 课程,名为: ** Spark,使用回归。**

火花资源

Spark 是一个在大数据范围内具有许多适用特性的平台,广泛应用于数据分析项目和 AI 算法,例如:

Spark SQL e 数据框: 用于处理结构化数据的 Spark 模块,使用类似于 SQL 语言的命令。

火花流: 用于具有历史数据的数据分析功能,但主要用于实时数据。

火花 MLib: 它基于 Spark 构建,是一个用于机器学习的库。

手放在面团里

首先,让我们使用 谷歌公司 考虑到它的实用性,并在 google 上专门为我们的项目分配了一个服务器。因此,首先我们将使用以下命令安装 PySpark:

 !pip 安装 pyspark

之后,我们将在 Spark 中启动一个会话,我们将使用以下参数分配一个本地会话:

 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder\ .master('本地[*]')\ .appName('回归火花')\ .getOrCreate()

完成这一步后,我们会在 Colab 中挂载 Drive,如果你使用的是 Jupyter Notebook,你只会看到使用的文件的根文件夹,该文件将被使用,可以在此下载 关联 .

 从 google.colab 导入驱动器 drive.mount('/content/drive')

与 Google Drive 连接,我们将在脚本中加载文件,该命令由以下命令给出:

 dados =spark.read.json('/content/drive/MyDrive/SPARK/imoveis.json',)

加载数据集后,我们现在可以显示其内容,以便可以为我们将在下一篇文章中应用于模型的 AI 模型评估其内容,此案例的命令是:

 ¨dados.select('ident.customerID','listing.*').show()

该单元格将生成如下图所示的结果:

查看此单元格的输出,我们看到常规表格的数据杂乱无章,这是因为根文件是 JSON,因此在下一个文件中,我们将在此数据集中使用 PySpark 进行数据处理并选择必要的数据为要应用的模型。这就是伙计们,直到下一篇文章。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/30536/14161210

posted @ 2022-09-12 10:14  哈哈哈来了啊啊啊  阅读(77)  评论(0编辑  收藏  举报