机器学习公司 PySpark

一个这篇文章的想法，以及接下来将要写的文章，是展示将 PySpark（一种在大数据中广泛使用的工具）应用于机器学习算法的用法。所研究的工具是 Apache Spark 的接口，它是一个集群计算平台，为分布式编程提供 API，旨在增加对大数据块的处理（ 大数据 ）。

Spark Core by Apache Spache

注意：当前和未来的文章将基于 Alura 课程，名为： ** Spark，使用回归。**

火花资源

Spark 是一个在大数据范围内具有许多适用特性的平台，广泛应用于数据分析项目和 AI 算法，例如：

Spark SQL e 数据框： 用于处理结构化数据的 Spark 模块，使用类似于 SQL 语言的命令。

火花流： 用于具有历史数据的数据分析功能，但主要用于实时数据。

火花 MLib： 它基于 Spark 构建，是一个用于机器学习的库。

首先，让我们使用谷歌公司考虑到它的实用性，并在 google 上专门为我们的项目分配了一个服务器。因此，首先我们将使用以下命令安装 PySpark：

 !pip 安装 pyspark

之后，我们将在 Spark 中启动一个会话，我们将使用以下参数分配一个本地会话：

 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder\ .master('本地[*]')\ .appName('回归火花')\ .getOrCreate()

完成这一步后，我们会在 Colab 中挂载 Drive，如果你使用的是 Jupyter Notebook，你只会看到使用的文件的根文件夹，该文件将被使用，可以在此下载关联 .

 从 google.colab 导入驱动器 drive.mount('/content/drive')

与 Google Drive 连接，我们将在脚本中加载文件，该命令由以下命令给出：

 dados =spark.read.json('/content/drive/MyDrive/SPARK/imoveis.json',)

加载数据集后，我们现在可以显示其内容，以便可以为我们将在下一篇文章中应用于模型的 AI 模型评估其内容，此案例的命令是：

 ¨dados.select('ident.customerID','listing.*').show()

该单元格将生成如下图所示的结果：

查看此单元格的输出，我们看到常规表格的数据杂乱无章，这是因为根文件是 JSON，因此在下一个文件中，我们将在此数据集中使用 PySpark 进行数据处理并选择必要的数据为要应用的模型。这就是伙计们，直到下一篇文章。

posted @ 2022-09-12 10:14 哈哈哈来了啊啊啊阅读(90) 评论(0) 编辑收藏举报

刷新页面返回顶部