福塔莱萨市公交车乘客数据分析

福塔莱萨市公交车乘客数据分析

您有没有想过每天有多少人乘坐您所在城市的公共汽车?这是我一直有的一个问题,所以我决定利用福塔莱萨市政厅的公开数据来寻找关于这个主题的一些答案。

Imagem de passageiros em terminal de ônibus com alguns veículos do tranporte público ao fundo

本文是我计划在整个数据科学学习之旅之后撰写的一系列文章的一部分。我听很多人说学习主要是通过动手来实现的。因此,在开始练习 Pandas(用于数据分析的 Python 库)时,我决定探索 Etufor 提供的真实数据集,其中包含公交车乘客的需求数据。

首先,我将列出我在数据集中探索的所有要点,稍后我将介绍这些要点,以指导您的阅读:

  • 关于数据库的初始信息
  • 工作日通过的乘客最多的 10 条公交线路是什么?
  • 周末通过的乘客最多的 10 条公交线路是什么?
  • 付款人比例 x 酬金
  • 巴士总站之间的比较
  • 每日客流量图
  • 一周中每天的平均乘客图表
  • 试图理解异常值

1)关于数据库的初始信息

本次分析所用数据取自网站 福塔莱萨市政厅的开放数据 来自 Empresa de Transportes Urbanos de Fortaleza — ETUFOR。它们由两个 CSV 文件组成,其中包含 2022 年 1 月和 2022 年 2 月的乘客需求数据。

该表按天、公交线路、线路 ID、乘客 ID、乘客类型和每天的相应数量分隔信息。在清理数据并将两个文件合并为一个数据集后,他总共剩下 166,462 行和 6 列。以下是数据集的一部分:

Conjunto de dados em formato de tabela, algumas informações sobre o Terminal do Antônio Bezerra, a linha Papicu/Caça e Pesca e Quilometragem/Terminal

随着数据集的干净和组织,我们可以回答我们的第一个问题。值得强调几点。首先,这些数据可能是在公交车的闸机处收集的,因此为了便于理解,我们将每个通过闸机的人称为乘客。

因此,一个人可能在一天内乘坐多条公交路线,并且在计数中会有两名乘客指同一个人。

还有一点是,在福塔莱萨有一种叫整合的东西,就是每隔2小时,不管你坐多少辆公交车,只买一张票。由于数据没有指定这种行为,我们假设这里不存在集成。当我们查看付款人与小费的比例时,这一点将很重要。

确定了这两个细节后,我们实际上可以开始回答我们的问题了。来吧。

2) 工作日通过的乘客最多的 10 条公交线路是什么?

首先,让我们看看在研究的两个月内通过的乘客最多的公交车,不包括周末,基本上所做的就是过滤不是周末的日子,根据线路添加一般乘客数量,然后创建一个排名10 个最高值。请记住,这些是乘客总数。下图按降序排列,下面我再次完整列出了行数和人数。

Gráfico de barras horizontais com o número de passageiros que passaram nas linhas de ônibus em janeiro e fevereiro durante os dias da semana

  1. 076| Ceará/Aldeota/Papicu 套装 | 397,278 名乘客
  2. 041|帕兰加巴/奥利维拉派瓦/帕皮库 | 346,447 名乘客
  3. 712|Cj Palmeiras/Papicu |333,985 名乘客
  4. 042|Antônio Bezerra/Francisco Sá/Papicu |313,915 名乘客
  5. 074||Antônio Bezerra/Unifor |311,228 名乘客
  6. 050|Siqueira/Papicu/Washington Soares |306,141 名乘客
  7. 755|Curió/Riomar Kennedy|301,841 名乘客
  8. 855|Bezerra de Menezes/华盛顿苏亚雷斯|277,201 名乘客
  9. 754||Granja Lisboa/Goiabeiras |270,896 名乘客
  10. 045||Cj Ceará/Papicu/Montese |266,372 名乘客

需要强调的几点:首先,排名产生了帕兰加巴航站楼作为乘客数量最多,但是,由于我想先评估线路,我决定将其从列表中删除,但它会在航站楼之间的比较中出现.

其次,这些是总人数,即有更多的线路,所以这些线路往往有更多的乘客。在未来的研究中,我们可以根据平均总乘客/旅行进行排名,但由于数据没有提供这些数据,我决定只研究一般数字。

解释找到的排名,可以注意到 钟摆运动 主要负责通过最多乘客的线路,即 人们从最外围的社区到中心社区的日常流动,无论是为了工作还是学习,这里的代表是 Papicu、Meireles、Cocó 等。 工作场所、大学等更集中在这些街区。

3) 周末通过的乘客最多的 10 条公交线路是什么?

当然,周末的表现与平常的日子有些不同,所以我决定将它们分开来进行两种不同的分析。下面是完整的图表和线条。

Gráfico de barras horizontais com o número de passageiros que passaram nas linhas de ônibus em janeiro e fevereiro durante os fins de semana

  1. 052|格兰德圆形 II | 111.173
  2. 051|格兰德圆形 I|106.220
  3. 041|帕兰加巴/奥利维拉派瓦/帕皮库 | 105,936
  4. 712| Cj 帕尔梅拉斯/帕皮库 | 95,092
  5. 042|安东尼奥·贝泽拉/弗朗西斯科·萨/帕皮库 | 80,929
  6. 076| Cj Ceará/Aldeota/Papicu|69,254
  7. 752|狩猎和钓鱼/中心 | 62,434
  8. 045| Cj Ceará/Papicu/Montese | 52,863
  9. 855| Bezerra de Menezes/华盛顿苏亚雷斯| 50,751
  10. 755| Bullfinch/Riomar Kennedy| 48,930

由于福塔莱萨是一个沿海城市,因此可以注意到穿过海滩的线路出现在排名中,这里由两条领先的线路说明,此外还有基本上沿海岸经过的狩猎和钓鱼/市中心线路。还值得注意的是,其中一些线路的行程中有首都的购物中心,例如领先的712号线和排名第十的Curió/Riomar Kennedy。还有一点就是有些线路周末不通行,增加了其他线路的客流量。最后,一周中的某些行会重复,可能是因为周六和周日的工作。

重要的是要在这里强调一个事实,即具有较长行程(如 Grande Circular 的情况)和更多行程的线路可能在排名中具有更好的位置,这是一个重要的信息要考虑在此时此刻。理想的是研究平均值,但原始数据为我们提供了一个概览。

Rota da linha 906 — Caça e Pesca/Centro | Fonte: Moovit

4) 付款人比例 x 酬金

把公共汽车当成公共交通工具很奇怪,因为我们买了车票,不是吗?然而,过了一半, 城市巴士提供其他一些小费 .接下来,我们将探讨这些小费占乘客总量的百分比。 我对结果感到非常惊讶。

在福塔莱萨,全票票价为 3.90 雷亚尔,半票票价为 1.80 雷亚尔。该数据集包含 17 种不同类型的乘客,即不同的支付方式。

Tipos de passagens pagas nos ônibus de Fortaleza | Fonte: Elaborado pelo autor

数据未指定类别(免费或付费)。主要的分类我知道,但有些分类会带有一定的不确定性。 小费是:公司徽章,没有同伴的残疾人,免费身份证Ettusa,免费老人,免费儿童,老人身份证 .对于学生票,我认为学生类型的一半是免费的,一半是付费的。 其余类别被视为付费门票。

然后,将类别(免费和付费)的总和除以总数,产生以下比例。

Proporção de pagantes e gratuidades nos ônibus de Fortaleza | Fonte: Elaborado pelo autor

免费门票总数为20,840,876张,付费门票总数为5,201,549张。

5) 巴士总站之间的比较

可用数据允许我们进行的另一个比较是在巴士总站之间。福塔莱萨有 7 个航站楼,遍布全市,有不同的人来往。 重要的是要指出,这种移动是在通往航站楼的十字转门处完成的,从逻辑上讲,来自公共汽车的人的移动,这里不考虑这些。

Gráfico de fluxo de passageiros que entram nos terminais durante os meses de janeiro e fevereiro | Fonte: Elaborado pelos autores

最大的体积是在 Parangaba 码头, 可能是由于周围有地铁、商场、大学等场所的环境。 紧随其后的是 Antônio Bezerra、Messejana 和 Siqueira,人数相似。最后,我们还有“较小”的航站楼:Papicu、Conjunto Ceará 和 Lagoa。

6) 每日客流量图

下一张图代表了我们在研究中观察到的所有日子的乘客数量。在这里可以观察一周内的客流情况(我们将在下面绘制一周中每一天的平均值比较)。

我想在这里强调两个特定的日子, 2022 年 1 月 1 日除夕(星期六)和 2022 年 2 月 28 日(星期一),这是狂欢日之一 .这些日期相对于相应日期的平均值产生了显着的流量差异,在这种情况下,例如,当我们考虑平均指标时,可以显示异常值如何影响。这种图文并茂的注释也会在本文的最后一个话题中讨论(查看1月11日)。

Gráfico do número de passageiros em cada dia dos meses de janeiro e fevereiro | Fonte: Elaborado pelo autor

Diferença entre os gráficos da média de passageiros por dia da semana, no lado esquerdo gráfico com outliers e do direito outliers removidos | Fonte: Elaborado pelo autor

正如我们所看到的,计算上面突出显示的日子,周一和周六的平均值受到影响。 例如,我们可以解释为周一与周二、周三和周四略有不同,周五再次减少。但是,当我们拿嘉年华的数据时,我们可以看到周一到周四的数字非常相似。

差异也发生在星期六,一年中的第一天降低了 1 月份的平均值,但是,当我们忽略这一天时,月份的平均值再次接近。

从图中我们可以看到从一月到二月的流量增加, 这可能是因为返校和假期结束。 有没有人想到另一个可能的原因?

7) 试图理解异常值

让我们回到每月每一天的乘客人数图表。

Gráfico do número de passageiros em cada dia dos meses de janeiro e fevereiro | Fonte: Elaborado pelo autor

当我分析这张图表时,我突然想到的一件事是 2022 年 1 月 11 日, 值得注意的是,周二的客流量远低于平均水平 .

因此,我开始寻找可以解释这种现象的东西,并在日线图中发现了一些直观但有趣的东西。

Manchetes sobre fortes chuvas na manhã do dia 11 de janeiro em Fortaleza | Fonte: GCMais, G1 e Diário do Nordeste

也就是说,造成这种与平均值高度偏差的原因是首都的早晨降雨。 学生多睡一点,在远方工作的人要叫优步,其他人晚一点离开家……这些都可能是减少公交车上人流的因素。

Funceme 有几个月来降雨量的历史数据集,我可以在一周的其他日子看到类似的行为。分析这两个变量之间可能存在的相关性很有趣,但我决定将这部分留给本文可能的第 2 部分。

然而,值得一提的是,只有通过对乘客分布图的可视化分析才能提取的信息, 分析对任何类型数据的重要性,以及可以从中提取的可能见解。

这就是我们如何结束本次分析的方式。尽管是为了提高我使用 Pandas 的技能,但我决定不将代码带到本报告中。如果你对那部分感兴趣,我会离开 代码链接 什么不是 我的github .它是使用 Google Colab 创建的,我留下了关于整个过程的大部分评论,我出了什么问题,我如何修复它等等。

再次感谢来到这里的您,我可以提出任何问题、改进建议以及与此相关的任何其他聊天。花了!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/9684/00360201

posted @ 2022-09-02 01:01  哈哈哈来了啊啊啊  阅读(39)  评论(0编辑  收藏  举报