机器学习公司 PySpark
机器学习公司 PySpark
一个 这篇文章的想法,以及接下来将要写的文章,是展示将 PySpark(一种在大数据中广泛使用的工具)应用于机器学习算法的用法。所研究的工具是 Apache Spark 的接口,它是一个集群计算平台,为分布式编程提供 API,旨在增加对大数据块的处理( 大数据 )。
Spark Core by Apache Spache
注意:当前和未来的文章将基于 Alura 课程,名为: ** Spark,使用回归。**
火花资源
Spark 是一个在大数据范围内具有许多适用特性的平台,广泛应用于数据分析项目和 AI 算法,例如:
Spark SQL e 数据框: 用于处理结构化数据的 Spark 模块,使用类似于 SQL 语言的命令。
火花流: 用于具有历史数据的数据分析功能,但主要用于实时数据。
火花 MLib: 它基于 Spark 构建,是一个用于机器学习的库。
手放在面团里
首先,让我们使用 谷歌公司 考虑到它的实用性,并在 google 上专门为我们的项目分配了一个服务器。因此,首先我们将使用以下命令安装 PySpark:
!pip 安装 pyspark
之后,我们将在 Spark 中启动一个会话,我们将使用以下参数分配一个本地会话:
从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder\ .master('本地[*]')\ .appName('回归火花')\ .getOrCreate()
完成这一步后,我们会在 Colab 中挂载 Drive,如果你使用的是 Jupyter Notebook,你只会看到使用的文件的根文件夹,该文件将被使用,可以在此下载 关联 .
从 google.colab 导入驱动器 drive.mount('/content/drive')
与 Google Drive 连接,我们将在脚本中加载文件,该命令由以下命令给出:
dados =spark.read.json('/content/drive/MyDrive/SPARK/imoveis.json',)
加载数据集后,我们现在可以显示其内容,以便可以为我们将在下一篇文章中应用于模型的 AI 模型评估其内容,此案例的命令是:
¨dados.select('ident.customerID','listing.*').show()
该单元格将生成如下图所示的结果:
查看此单元格的输出,我们看到常规表格的数据杂乱无章,这是因为根文件是 JSON,因此在下一个文件中,我们将在此数据集中使用 PySpark 进行数据处理并选择必要的数据为要应用的模型。这就是伙计们,直到下一篇文章。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明