使用 Python 的 Amazon Web Scraper

Photo by 马吕斯表 on 不飞溅

介绍

网络抓取是任何数据科学家在他们的工具箱中拥有的一项重要技能。 网络抓取可用于收集有关待售产品、用户帖子、图像以及几乎任何其他在网络上有用的数据 .

网络抓取（或数据抓取）是一种用于从互联网收集内容和数据的技术。这些数据通常保存在本地文件中，以便可以根据需要对其进行操作和分析。如果您曾经将网站上的内容复制并粘贴到 Excel 电子表格中，这本质上就是网络抓取，但规模非常小。

对于网络抓取，需要考虑几个不同的库，包括：

美丽的汤
要求
刮擦
硒

在这个例子中，我们将使用 Beautiful Soup。

概括

导入库
用户代理
检查网页
创建 CSV 文件
结论

1.导入库

首先，我们将导入所需的库。

**从** BS4 **进口** 美丽汤  
 **进口** 要求  
 **进口** 时间  
 **进口** 约会时间  
 **进口** smtplib

2. 用户代理

复制并粘贴我们要废弃的网站的链接。然后，我们从计算机中获取“标题”，即“用户代理”，通过这里 .

 网址 **=** 'https://www.amazon.com/Funny-Data-Systems-Business-Analyst/dp/B07FNW9FGJ/ref=sr_1_3?dchild=1&keywords=data%2Banalyst%2Btshirt&qid=1626655184&sr=8-3&customId=B0752XJYNL&th=1' 标题 **=** {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate" , "接受":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "升级不安全请求":"1"} 页 **=** 要求 **.** 获取（网址，标题 **=** 标题）

3.检查网页

现在我们开始实际使用 Beautiful Soup 库。

 汤1 **=** 美丽汤(页 **.** 内容，“html.parser”）  
 汤2 **=** 美丽汤(汤1 **.** 美化（），“html.parser”）  
 标题 **=** 汤2 **.** 找到（身份证 **=** '产品标题'） **.** 获取文本（）  
 价格 **=** 汤2 **.** 找到（身份证 **=** 'priceblock_ourprice') **.** 获取文本（）  
  
 打印（标题）  
 打印（价格）

我们得到的输出是：

 有趣的得到数据 MIS 数据系统业务分析师 T 恤  
                    
  
 16.99 美元

4. 创建 CSV 文件

下一步是为输出创建时间戳以跟踪收集数据的时间。

**进口** 约会时间  
 今天 **=** 约会时间 **.** 日期 **.** 今天（）  
  
 打印（今天）

我们将数据附加到 cs 五。

**和** open('AmazonWebScraperDataset.csv', 'a+', 换行 **=** '', 编码 **=** 'UTF8') **作为** F：  
 作家 **=** CSV **.** 作家（女）  
 作家 **.** 写手（数据）

现在我们可以可视化我们抓取的数据。

**进口** 熊猫 **作为** PD  
  
 df **=** PD **.** read_csv(r'C:\Users\Alysson\AmazonWebScraperDataset.csv')  
  
 打印（df）

5. 结论

这是我们可以用来在互联网上废弃数据的方法之一。我希望这很清楚。一个好的数据科学家必须知道如何使用上面提到的各种方法。完整代码可以访问这里 .

本文链接：https://www.qanswer.top/23550/25301001

posted @ 2022-09-10 01:26 哈哈哈来了啊啊啊阅读(105) 评论(0) 收藏举报

刷新页面返回顶部

amboke

使用 Python 的 Amazon Web Scraper

使用 Python 的 Amazon Web Scraper

介绍

概括

1.导入库

2. 用户代理

3.检查网页

4. 创建 CSV 文件

5. 结论

公告