端到端数据工程项目 | YouTube 数据分析
端到端数据工程项目 | YouTube 数据分析
通过构建端到端数据工程项目来分析 YouTube 数据
任何数据项目的目标都是从数据中提取价值并帮助企业做出数据驱动的决策。
我们将以此开始项目
假设我们有一个客户,他想在社交媒体上为他的产品投放广告,他选择了 YouTube
他想找到这些问题的答案
- 查找人们在 YouTube 上观看的热门视频类别
- 哪些因素会影响 YouTube 视频的受欢迎程度?
为什么选择 YouTube?
YouTube 是仅次于 Google 的第二大访问量网站
在开始数据项目之前,我们需要定义我们的目标以及我们将如何衡量项目的成功
我们的目标和成功标准
- 数据摄取——建立一种从不同来源摄取数据的机制
- ETL 系统——我们正在获取原始格式的数据,将这些数据转换为正确的格式
- 数据湖——我们将从多个来源获取数据,因此我们需要集中式存储库来存储它们
- 可扩展性——随着我们数据量的增加,我们需要确保我们的系统可以随之扩展
- 云——我们无法在本地计算机上处理大量数据,所以我们需要使用云,在这种情况下,我们将使用 AWS
- 报告 - 构建仪表板以获取我们之前提出的问题的答案
我们这个项目的架构图
我们将使用的服务
- 亚马逊 S3 :Amazon S3 是一种对象存储服务,可提供制造可扩展性、数据可用性、安全性和性能。用户可以随时随地使用 Amazon S3 保存和检索任意数量的数据。
- AWS IAM: 这只不过是身份和访问管理,它使我们能够安全地管理对 AWS 服务和资源的访问。可以创建和管理 AWS 用户和组,并使用权限来允许和拒绝他们对 AWS 资源的访问。这是 AWS 的一项功能,无需额外费用。
- 快看: Amazon QuickSight 是为云构建的可扩展、无服务器、可嵌入、机器学习支持的商业智能 (BI) 服务。它是第一个提供按会话付费定价的 BI 服务,您只需在用户访问他们的仪表板或报告时付费,这使得大规模部署具有成本效益。它可以连接到各种来源,如 Redshift、S3、Dynamo、RDS、JSON、文本、CSV、TSV、Jira、Salesforce 和本地 oracle SQL 服务器等文件。
- AWS 胶水: 一种无服务器数据集成服务,可轻松发现、准备和组合数据以进行分析、机器学习和应用程序开发。它运行 Spark/Python 代码,无需以象征性成本管理基础设施。您只需在作业运行期间付费。此外,您还需要支付 Data Catalog 对象的存储成本。可以使用爬网程序将表添加到 AWS Glue 数据目录。大多数 AWS Glue 用户都采用这种策略。在一次运行中,爬虫可以爬取大量数据存储库。爬虫完成后会在您的数据目录中添加或修改一个或多个表。
- AWS 拉姆达: Lambda 是一种计算服务,允许程序员无需创建或管理服务器即可运行代码。 Lambda 在高可用性计算基础设施上执行代码并管理它的各个方面,包括服务器和操作系统维护、容量配置和自动扩展、代码监控和日志记录。 Lambda 允许您为几乎任何形式的应用程序或后端服务运行代码。
- AWS 雅典娜: Athena 是 S3 的交互式查询服务,无需加载它留在 S3 中的数据。它是无服务器的,支持多种数据格式,例如 CSV、JSON、ORC、Parquet 和 AVRO。
我们将使用的数据集
[
趋势 YouTube 视频统计
热门 YouTube 视频的每日统计数据
www.kaggle.com
](https://www.kaggle.com/datasets/datasnaek/youtube-new)
数据集描述
这个 Kaggle 数据集包含几个月来每天流行的 YouTube 视频的统计数据(CSV 文件)。许多地方每天发布多达 200 个热门视频。
两个数据文件:
- Region-包含来自不同区域的视频信息
- 类别 - 包含有关不同类别视频的信息
项目执行:
我为这个项目创建了一个详细的 3 小时以上的教程,您将在其中从头到尾执行所有操作
超过 29K+ 人观看了该视频,他们都觉得这非常有用
如果你觉得这很有用,别忘了在这里关注我,订阅我的频道和其他平台
推特 - https://twitter.com/parmardarshil07
领英—— https://www.linkedin.com/in/darshil-parmar/
感谢您阅读:)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明