网络抓取数据科学及相关工作

数据科学

网络抓取数据科学及相关工作

使用 Requests & Beautiful Soup 成功抓取了 100 多个职位空缺

D ata科学是 **** 结合领域专业知识、编程技能以及数学和统计学知识以从数据中提取有意义的见解的研究领域。数据科学从业者将机器学习算法应用于数字、文本、图像、视频、音频等,以产生人工智能 (AI) 系统来执行几乎不需要人类智能的任务。作为回报,这些基于人工智能的系统会产生有意义的洞察力,分析师和业务用户可以将这些洞察力转化为业务价值。

Web Scraping 是一种从网站获取大量数据的自动方法。在本文中,我们将收集有关数据科学及其相关领域的工作机会的数据,来自 的确 使用 Python 要求 , 美丽的汤 .

**目录索引**  
 · 使用请求下载网页  
 · 使用请求下载网页  
 · 使用漂亮的汤来解析 HTML 源代码  
 · 提取有关职位发布的详细信息  
 · 将提取的信息编译到 Pandas DataFrame 中  
 · 使用 for 循环创建一个 Python 列表来存储所有抓取的数据  
 · 将提取的信息保存到 CSV 文件。  
 · 概括 是的  
 · 未来的工作  
 · 参考

使用请求下载网页

Indeed Job Portal

使用请求下载网页

现在让我们抓取 URL 并将其保存到容器中并使用 要求 库允许我们向网站服务器发送 HTTP 请求以下载内容。

现在让我们检查下载内容的状态

  • 对的回应 要求。得到() 应该在 200 到 299 之间以下载 Web 内容。
  • 响应状态可以通过以下方式验证 状态码()

我们现在已经成功下载了网页。

使用漂亮的汤来解析 HTML 源代码

我们将使用 Beautiful Soup 库来解析下载网页的 HTML 源代码。

[

Beautiful Soup 文档 - Beautiful Soup 4.9.0 文档

Beautiful Soup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它与您最喜欢的解析器一起使用以...

www.crummy.com

](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

我们现在将从 Beautiful Soup 对象中提取细节,使用 物体。” 功能。让我们找出 标题 的网页。

我们已经成功提取了网页的标题。

提取有关职位发布的详细信息

现在让我们提取职位名称、组织名称、职位位置、评级、薪水和职位发布日期。

现在让我们创建一个辅助函数“ 获取标题()” 使用 BeautifulSoup 下载所有职位“ 。找到所有” 功能。

现在让我们创建一个辅助函数“ 获取标题()” 使用 BeautifulSoup 下载所有职位“ 。找到所有” 功能。

我们将对组织名称、工作地点、组织评级、工作描述、发布日期和薪水重复相同的过程。
但是,在提取 Rating & Salary 时,发现一些组织没有任何评级或提及所提供的薪水。

在这里,我们将使用“ 尝试 &除外” python编程的概念来填补缺失值 “那” 。

[

8. 错误和异常 - Python 3.10.7 文档

到目前为止,错误消息并没有被提及,但是如果您尝试过这些示例,您可能已经......

docs.python.org

](https://docs.python.org/3/tutorial/errors.html)

让我们创建辅助函数 下载网络(), 下载网页并解析它。

如您所见,“ docs”(美丽的汤品) 存储解析后的 H​​TML 数据。

将提取的信息编译到 Pandas DataFrame 中

现在让我们首先为每个不同的 Job Role 创建容器。

现在我们将创建这些容器的列表。

现在让我们创建一个最终的辅助函数 细节() 在一个引擎盖下编译所有数据,调用先前创建的函数来提取有关特定工作的所有详细信息,例如。 数据科学家

如您所见,我们已经使用生成了 Pandas DataFrame pd.DataFrame 功能并返回它。

使用 for 循环创建一个 Python 列表来存储所有抓取的数据

在这里,我们将仅使用一个 for 循环来抓取和解析数据,用于我们为不同工作角色创建的所有 URL,并将其保存在 python 列表中。

现在让我们使用 打印 功能

在这里,我们可以看到创建了一个包含详细信息的列表列表。我们将使用 PD。康卡特 函数生成一个新的 pandas DataFrame。

这是完整和最终的 pandas DataFrame,包含 105 个与数据科学和相关领域相关的空缺职位。

将提取的信息保存到 CSV 文件。

让我们将提取的信息保存到“. CSV” 文件格式

概括

在这篇博文中,我们试图通过提供的工作地点、描述和薪水来挖掘 PAN INDIA 位置的数据科学及其相关领域的不同工作机会。

  1. 我们从以下位置下载了数据科学和相关的职位发布 的确 **** 使用 要求 图书馆。
  2. 使用解析 HTML 源代码 ****美丽的汤 **** 图书馆。
  3. 提取有关职位发布的详细信息,例如职位名称、组织名称、职位位置和薪水作为 Python 列表。
  4. 将提取的信息组装到 Pandas DataFrame 中并将其保存到 CSV 文件中。

未来的工作

以下是对未来工作的一些想法:-

  • 在这里,我们只解析了包含 15 个职位的每个职位发布的单页。对于非动态加载的网站,我们可以使用代码分别解析所有页面。
  • 由于 Indeed 是一个动态加载的网页,因此我们仅限于第一页。我们可以使用 AWS Selenium 网络抓取所有数据。
  • 我们可以使用类似的代码从 Glassdoor、Naukri 和其他著名的工作门户网站抓取网页。

参考

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38694/47422212

posted @ 2022-09-22 12:49  哈哈哈来了啊啊啊  阅读(19)  评论(0编辑  收藏  举报