AirBnb——数据探索和可视化
AirBnb——数据探索和可视化
Airbnb以彻底改变我们的旅行方式而闻名,允许普通人出租他们的房屋或部分房屋用于住宿,这可以作为房东的一种额外收入和租户的更可行的选择。
该应用程序创建于 2008 年,到 2012 年,在其创建仅 4 年后,它已经促成了超过 1000 万次住宿预订。
Airbnb 提供了一些关于您的租金的数据,我们下载了意大利罗马市的数据。这是对汇总数据库的肤浅研究,此分析的目的是有一些见解并回答以下问题:
- 在此期间,罗马哪些街区提供客房优惠。
- 每个社区的平均收费是多少?
- 这些数据之间是否存在相关性?
对于此分析,我们将使用 Google Colab 中的 Python 语言和一些数据科学技术。
使用的库
基本上,matplotlib 和 seaborn 库用于图形和 pandas 用于数据分析和操作。
探索性数据分析
我们从数据帧的探索开始,使用 pd.read 读取文件并使用 .info() 可视化列、输入数量和值类型(int、float 和 object)。
有趣的是找出是否有空值以及它们的位置,我们需要将它们交换为可以操作的值。
为此,我使用 .head() 将前 5 个条目带入检查是否已经可以找到一些空值,还使用 .isnull().sum() 对 DataFrame 列内的空值求和。
知道空值所在的位置不会损害我想回答的问题,我将空值替换为 0。
Veja os valores na coluna ‘neighbourhood_group’ com 0.00
1 — 在此期间,罗马哪些街区提供客房优惠?
现在我们已经完成了快速清理并确定了 DataFrame 的列和值,我们可以开始回答一些问题。
要了解 Dataframe 中的邻域,我在邻域列中使用了 .unique() 命令。
2 — 每个社区的平均收费是多少?
为了更“准确”地发现平均收费金额,我们必须识别可能的异常值,即不匹配或可疑的非常极端的值。
直到最终结果的代码很长,所以我只留下最重要的点和消除异常值的最终图表。
首先,我们可以查看价格列的统计分布,通过它我们可以了解这些值。
distribuição estatística
请注意,我们每晚的最低收费为 0.0,最高为 90,963。这些值清楚地表明我们有异常值会扭曲我们想要得到的平均值。
GráficoBox — os pontos mostram os valores do Dataframe, os valores muito afastados indicam outliers.
为了去除这些异常值,我使用了 IQR 分数规则。 IQR 的计算方法是从第一个四分位数 (25%) 中减去第三个四分位数 (75%)。应用此规则,我们得到一个更接近分析值总集中间的截止值。
Aplicação do IQR Score
现在是的,我们可以检查罗马市每个社区的平均收费。
Média de valores cobrados por bairro, o código completo pode ser acessado no link no final desse artigo.
3 — 这些数据之间是否存在相关性?
我真正喜欢的一个分析是变量之间的相关性。在这个 Dataframe 中,我试图找到一些我认为有意义的值之间的相关性,但是,在这个分析中没有发现相关性。
我使用了一个相关矩阵;价格、房间评论数量和年内房间供应情况。目的是试图找出由于价格和评论数量的原因,一年内房间是否可用。但在这些值之间没有发现相关性。
结论
这是对 Airbnb 可用数据的非常简单的分析,最终目标是将数据科学课程模块中获得的知识应用到 Sigmoidal 学校的实践中。
我们能够找出罗马市哪些街区有出租房间或公寓的报价,以及该市每个街区的报价平均值是多少。
有用的链接:
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」