EDA – Apple 的 AppStore 数据集 (2008–2021)

数据科学

EDA – Apple 的 AppStore 数据集 (2008–2021)

使用 Python

Photo by 普拉图钱德拉

应用商店 是一个应用商店平台,由 Apple Inc. 开发和维护,用于其 iOS 和 iPadOS 操作系统上的移动应用程序。该商店允许用户浏览和下载在 Apple 的 iOS 软件开发工具包中开发的经批准的应用程序。

探索性数据分析( EDA ):该项目是关于使用统计测量和可视化从数据中探索、调查和收集见解的过程。各种探索性和预测性分析技术可以帮助企业实时构建和重新校准其定价、营销和库存策略。本项目中使用的库是 Pandas、Seaborn、Plotly 和 Matplotlib。

以下是该项目的概要:

  1. 数据分析和可视化
  2. 问与答
  3. 概括
  4. 未来的工作
  5. 参考

我找到了苹果 应用商店数据集 在 Kaggle 上包含 2008 年至 2021 年的 1.2+ 百万行应用程序数据。

数据分为21列:-

  1. App_Id :列出的每个应用程序都有一个唯一的 ID。
  2. App_Name :包含应用程序名称。
  3. Appstore_URL :链接访问应用商店中的应用。
  4. Primary_Genre :包含应用程序类型(类别)。
  5. Content_Rating :包含每个应用程序的年龄限制。
  6. Size_Bytes :应用程序大小(以字节为单位)。
  7. 必需_IOS_Version :包含应用程序所需的 IOS 版本。
  8. 发布 :应用程序的发布时间(年、月、日、时间)。
  9. 更新 :应用程序的最新更新(年、月、日、时间)。
  10. 版本 :应用程序的版本。
  11. 价格 :应用程序的价格。
  12. 货币 : 价格的货币是什么。
  13. 自由的 :包含有关应用程序的信息是免费的还是付费的。
  14. 开发者 ID :列出的每个开发者都有一个唯一的 ID。
  15. 开发商 :包含开发者名称。
  16. 开发者网址 :包含指向开发者网站的链接。
  17. 开发者_网站 :包含指向开发者网站的链接。
  18. Average_User_Rating :应用程序的平均用户评分。
  19. 评论 :评论总数。
  20. Current_Version_Score :当前版本评级。
  21. Current_Version_Reviews : 当前版本评论。

单变量分析和可视化。

进行分析以了解数据并大致了解我们所处的情况。可视化是理解任何事物的最有效方式,并使我们能够更有效地传达故事。

让我们从安装适当的包来可视化数据开始吧

导入合适的库

清理数据后。它包含 13 列

内容分级

此列包含每个应用程序的年龄限制。

评级为 4+ 的应用程序不包含任何令人反感的材料。

评级为 9+ 的应用可能包含可能不适合 9 岁以下儿童的内容实例。

评级为 12+ 的应用可能包含可能不适合 12 岁以下儿童的内容实例。

分级为 17 岁以上的应用可能包含不适合 17 岁以下未成年人的内容实例。

大量应用程序出现在 4+ 内容评级中

重复应用名称

有几个具有相同名称的应用程序

似乎是一个有效的数据,因为该应用程序有不同的供应商,也来自不同的类别

顶级类别

按每种类型的应用总数计算

游戏在类别列表中名列前茅。

商业和教育应用程序正在竞争。

高价应用

可视化排名前 30 位的高价应用

这些是一些花费财富的应用程序;)。 Appstore最高价为999.99 USD

付费和免费应用程序的比率

免费应用程序总数:付费应用程序总数

似乎所有类别的付费应用都少得多。

教育和游戏拥有几乎相同数量的付费应用。

顶级开发商

根据他们发布的应用程序的数量。

ChowNow 在应用商店发布了近 4000 个应用。 Touch2Success、Alexander Velimirovic、Mindbody、Phorest、Offline map trip guide ltd 这些开发商已经发布了超过一千个应用程序。

问与答

通过探索数据集的各个列,我们已经获得了有关 Appstore 应用程序数据的一些见解。

让我们问几个具体的问题,并尝试使用数据框操作和可视化来回答它们。

Q1。哪些开发商最受欢迎?

通过计算 1 评论 = 1 用户
人气=用户总数

谷歌拥有 4200 万用户,拥有 85 个应用程序。

拥有 6 个应用程序的 Instagram 拥有 2100 万用户,占 Google 总用户的一半。

Spotify 和 Voodoo 几乎没有用户。但 voodoo 有 189 个应用程序,而 Spotify 只有 7 个。

Q2。前 20 名热门开发者中,哪个应用程序的人气占据主导地位?

YouTube 是来自 谷歌有限责任公司 拥有 20+ 百万用户,这是排名前 9 名应用程序的总用户数。

迪士尼 My Disney Experience 和 ESPN 应用程序都没有大量用户。

Teams 是来自 微软 .

巫毒教 游戏开发商 Hele.io 更受欢迎(用户)。

亚马逊 拥有 AMZN 购物应用程序,该应用程序占主导地位,拥有近 450 万用户

狮子工作室 拥有 800+ 千名用户的 Match 3D 应用程序。

Q3。应用程序的大小对用户有什么影响?

小型应用程序的数量高于中型和大型应用程序,用户也是如此。

中型应用虽然比小应用少,但用户占比不错,可以和小应用竞争。

大型应用程序的应用程序数量太少,用户也是如此。但在游戏中,16% 的用户选择玩大型游戏。天气、教育等领域也有大型应用程序,但与游戏相比,它们的用户百分比和应用程序数量太少。

Q4。这些年来应用程序发布的数量和用户增加的数量是多少?

通过查看情节

2009年到2012年用户稳步增长,2013年大幅下降。

从 2008 年到 2020 年,所有类别的发布应用程序都在显着增加。

社交网络始于 2008 年的 2 个应用程序,每年这一类型的增长速度都足够快,到 2021 年底,它在一年内发布了 6000 个应用程序。

2008 年有 7 个应用程序的 Food & Drink 拥有 240 万用户。多年来,没有应用程序以显着的速度增长,但用户却没有。多年来,健康和健身应用程序的用户和应用程序都出现了巨大的增长,到 2019 年底,它的用户数为 140 万,新增用户数为 250 万。

在 2020 年和 2021 年,所有类别的用户都大幅下降,这可能是 COVID-19 的影响。

仅通过查看此图表就可以得出很多见解。

Q5。有多少应用程序可以在各种 IOS 版本上运行?

游戏从 IOS 6 开始兴起,拥有 23+ 千个应用程序。

大多数应用程序已在 IOS 版本 8-12 之间添加。

持有旧手机的人几乎没有可用的应用程序。

我们还可以通过上面的表格进行验证,其中包含 Iphone 型号及其兼容版本。

到目前为止,IOS 15 是最新版本,并且有一些类别他们已经开始在此版本中部署应用程序。

Q6。免费和付费游戏的百分比是多少?大多数用户使用的前 10 款游戏是什么?

在 193 万个应用程序中,似乎只有 8.2% 的付费应用程序存在。

Roblox 拥有 600 万免费应用用户

Minecraft 是最畅销的应用程序,拥有大约 50 万用户。

问题 7。这些年游戏玩家的成长是怎样的。 (2008–2021)

总体而言,拥有 3200 万游戏玩家的中型游戏的参与者数量过多。

自小型游戏开始以来,玩家的数量逐渐增加。

尽管大型游戏减少,但 2018 年的游戏玩家率却出现了急剧增长。

在 2020 年和 2021 年,所有类别的用户都大幅下降,这可能是 COVID-19 的影响。

Q8。哪个开发者从付费应用中获得的收入最高?

通过将应用的评论数量和价格相乘来计算收入。

Mojang 游戏开发商是付费应用中收入最高的应用程序,而 Minecraft 应用程序是带来 340 万美元的应用程序

第二高的是 Time Base Technology Limited,其一款应用程序 GoodNotes 5 拥有 150 万美元。

与其他类别相比,游戏和生产力应用的收入更高。

大多数开发人员将他们的应用程序定位在 Content Rating 4+ 上,即面向所有人。

带代码的完整笔记本 可以在我的查看 Github ** &** 木星 **** 轮廓

概括

Apple Appstore 数据集的探索性数据分析完成。以下是我们遵循的大纲:

  • 从 Kaggle 下载数据集
  • 通过清理、修改来处理脏数据以准备数据框以供分析。
  • 完成数据预处理后,就开始分析数据并对其有一个很好的了解。
  • 询问并回答了一些有趣的问题。

以下是探索性分析期间注意到的观察结果:

  1. Google LLC、Instagram, Inc.、Spotify Ltd.、Voodoo、AMZN Mobile LLC 等是最受欢迎的前 5 名开发商。
  2. 来自随机顶级开发人员的主导应用程序。
    a) 谷歌有限责任公司:YouTube,
    b) 迪士尼:我的迪士尼体验,
    c) 微软:团队,
    d) 巫毒教: Hole.io ,
    e) 亚马逊:AMZN 购物,
    f) Lion Studio:匹配 3D
  3. 小应用拥有更多用户。与大型和中型相比,没有小型应用程序是巨大的。中型应用虽然少,但用户比例不错。
  4. 2009 年至 2012 年稳定增长,每年有 1 亿用户,而 2013 年则大幅下降 3000 万用户。 2013-2020 年有起有落(主要是低谷)。在 2020 年和 2021 年,所有类别的用户和应用程序发布都大幅下降,这可能是 COVID-19 的影响。
  5. 大多数应用程序已在所有类别的 IOS 8-12 之间添加。游戏从 IOS 6 开始兴起,拥有 23+ 千个应用程序。
  6. 似乎在 193 万个应用程序中只有 8.2% 的付费应用程序存在。 Roblox 在免费应用程序中拥有 600 万用户。 Minecraft 是最畅销的应用程序,拥有大约 50 万用户。
  7. 总体而言,拥有 3200 万游戏玩家的中型游戏的参与者数量过多。
  8. Chownow 总共发布了 3699 个应用程序。
  9. Mojang:我的世界(340 万美元),
    时基科技有限公司:GoodNotes 5(150 万美元),
    Piksoft Inc,:TurboScan™ Pro:PDF 扫描仪(140 万美元),
    Ginger Labs:知名度(130 万美元),
    Shotzoom 软件:Golfshot Plus(120 万美元)。
    大多数开发人员将他们的应用程序定位在 Content Rating 4+ 上,即面向所有人。

未来的工作

  • 通过比较 Google PlayStore 和 Apple AppStore 可以进行有趣的分析。
  • 我打算从 AppStore 预测应用程序的成功。

参考

苹果应用商店数据集: https://www.kaggle.com/datasets/gauthamp10/apple-appstore-apps

什么是探索性数据分析: https://en.wikipedia.org/wiki/Exploratory_data_analysis

熊猫文档: https://pandas.pydata.org/docs/user_guide/index.html

update_layout 的属性: https://plotly.com/python/reference/layout/

情节画廊: https://plotly.com/python/

Seaborn 画廊: https://seaborn.pydata.org/examples/index.html

Matplotlib 库: https://matplotlib.org/3.1.1/gallery/index.html

跟着我

领英 中等的 GitHub

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/23542/24531001

posted @ 2022-09-10 01:25  哈哈哈来了啊啊啊  阅读(298)  评论(0编辑  收藏  举报