了解电动滑板车骑手的行为

抽象的 ——今天，电动滑板车被人们用于交通和娱乐，世界上大多数主要城市都开始了该领域的研究和开发。用户可以轻松地使用任何提供商的应用程序来减少找到最近的滑板车并去他们想去的地方的机会。这些服务的设计方式会生成大量关于服务使用方式和使用地点的数据。通过评估这些数据并预测用户行为，旨在促进电动滑板车供应商和地方政府的运营研究。为此，已经尝试通过使用机器学习模型进行持续时间、距离和经纬度估计来预测用户行为。根据这些估计，对踏板车供应商和地方政府做出了推论。

一、简介

大多数操作都是使用 Pandas 库执行的。 Matplotlib 和 Seaborn 用于显示数据的图形表示。与 JSON、CSV、Datetime 和 Numpy 相关的其他库也已用于较小的任务。首选 colab 环境，因为数据发现中的所有步骤都可以轻松且描述性地显示在笔记本中，并且可以进行地图可视化。

数据集中的每一行都包含滑板车的骑行信息。该信息包括骑行时间、骑行距离、出发经纬度、到达经纬度、骑行日期时间和天气信息。通过使用这些信息，已尝试了解用户行为。滑板车用了多长时间，可以估计一下吗？行驶距离是多少？目的地的经纬度是否可以预测等问题，已尝试回答。根据这些答案，旨在向踏板车供应商和地方政府提供结论。

这里看到的问题是可用资源的低效使用。它旨在通过更好地了解用户的行为来使低效的流程更加高效。滑板车供应商使用运营团队来定位滑板车。考虑到这些团队使用的工具和劳动力，有效地使用它们是不可避免的。通过这种方式，旨在提高材料和劳动效率并减少能源消耗。由于正确的运营选择需要更少的移动和组织，运营团队使用的车辆的能源消耗也将减少。例如，当更好地理解用户行为时，踏板车将不会被放置在不必要的区域。另外，如果滑板车停车场能选对地方，就方便用户使用，也能解决城市的停车问题。这里的停车问题可以被认为是路中间或人行道上的一些滑板车占用过多。这些现在是一个问题，并且随着踏板车数量的增加将变得更加严重。我认为在未来通过工作来防止这些是非常重要的。到目前为止，我们已经讨论了它对滑板车供应商的好处。此外，它被认为会给地方政府，即市政府带来很多好处。例如，如果可以观察到经常使用的路线，则可以通过公共交通工具为这些地区提供支持。由于缺乏公共交通而造成的困难可能已经消除。它还可以通过在这些路线上建造自行车道来支持电动汽车的使用，从而以更环保的方式减少能源消耗。这将是

根据这些目标，首先，尝试使用回归模型估计行驶距离。由于数据集中的数据太多，使用随机抽样方法可以更快地训练模型。当使用所有数据时，模型训练的持续时间可能会很长。

在估计行驶距离时，首先使用线性回归算法，然后使用多层感知器、决策树、XGbooster、SVM 算法。对数据集进行随机抽样后，将数据集拆分为 20% 的测试数据和 80% 的训练数据。然后，由于特征之间的值差异很大，因此对其进行了缩放。通过这种方式，旨在防止某些特征抑制其他特征。比较了这些回归模型的结果。性能指标是根据 MSE、RMSE 和 R2 值制定的。

然后，尝试通过在数据集上使用聚类算法来发现模式。由于人们认为某些行为可能具有某些聚类，因此已经应用了聚类方法。为此，已经应用了 Kmeans、DBScan、分层、高斯混合聚类算法。结果，无法获得所需的数据。尽管使用了使用不同方法的聚类算法，但大多数数据是相互交织的。将在以下各节中详细说明。

尝试使用多输出机器学习模型估计到达经纬度。为此，使用了线性回归、K-最近邻、决策树算法。 MSE、RMSE 和 R2 用作性能指标。通过使特征重要性来检查特征对结果的影响。结果，如果可以以某种方式预测行驶距离，那么也可以预测其目的地。这样，可以为这些点取半径，有效地确定区域。将在以下各节中详细讨论。

已尝试估计骑行时间。为此，使用了线性回归和 XGBooster 算法。 RMSE、MSE、MAE、R2 用作性能指标。

最后，试图估计每小时使用多少辆踏板车。为此，在数据集中进行了少量操作。它已被制成适合训练。然后，检查特征之间的相关性。它旨在按月和按小时了解用户行为。就用户行为而言，根据小时和月捕获任何模式可能很重要。这样，踏板车供应商和地方政府就更容易接受公理。分析数据后，试图估计每小时的踏板车使用次数。为此，使用了线性回归、决策树、随机森林、梯度提升回归、多层感知器算法。性能指标是 RMSE、MSE 和 R2。然后，对随机森林和多层感知器进行模型调优。它旨在通过尝试不同的参数来提高模型性能。然后，视觉绘制图形并从错误中得出结论。

2. 文献研究

这方面的研究试图根据起点和终点来检测踏板车使用密集的地方。他们专注于这种强度的原因并试图理解它。总的来说，已经对数据分析进行了研究。还有一些研究试图使用机器学习模型来估计骑行距离和骑行时间。已经就如何将人工智能模型与这些数据一起使用以提高微移动领域的能源效率提出了建议。考察了滑板车定位在能源消耗方面效率低下的过程，并就如何相应地组织现场团队提出了想法。根据研究中观察到的情况，现场团队管理对该部门有重大影响。他们已经表明，他们可以利用数据很好地管理这种影响。因此，滑板车供应商不仅希望从数据中获得洞察力并做出更快的决策，而且通常会根据客户行为、需求预测和外部因素做出更明智的决策。

美国的一些地方政府已经要求滑板车供应商通过遵守某些规则公开共享数据。虽然这些数据中包含了一些关于游乐设施的信息，但考虑到用户隐私[2]，一些数据不会共享或通过轻微的操作共享。

在一项研究中，研究了机器学习模型如何用于滑板车定位[3]。通过使用地理数据，通过统计靠近起点和终点的重要地点来制作属性：公交车站、学校等。创建了closest_highway、supermarket_count_1000m等属性。然后，使用随机森林和梯度增强分类器模型，因为基于树的模型被认为能够处理倾斜数据、捕获重要的特征交互并提供特征重要性。结果根据特征重要性进行解释，并相应地提出公理。通过使用地理图像，试图确定滑板车定位中缺失的区域，并试图了解其原因。

在另一项研究中，命名了地理起点和终点，例如起点和终点站。后来，它们在这些区域的密度被确定，并对其成因进行了研究[4]。

在这一领域，研究主要集中在数据挖掘和用地理图像解释结果[5]。通常，对分散的数据进行清理、处理和可视化，并对结果进行解释。

3. 数据集、数据属性和特征

由于隐私问题，数据集被轻微操纵，并不完全准确。例如，开始和结束时间四舍五入到最接近的小时。关于地理位置，没有准确提供经纬度点。相反，非常接近的位置的值是通过小的操作给出的。换句话说，位置以及开始和结束时间并不完全正确。准确性本身对这项研究并不重要，但重要的是要意识到数据集的局限性。踏板车供应商维持运营的地方政府已要求公开此数据。也就是说，滑板车供应商在开始在一个地区工作时需要提供一些基本的能力。这些能力包括技术和软件内容。后来，他在开始运营时，非常重视用户个人数据的隐私，并要求他公开展示自己获得的数据。在公开展示这些数据的同时，他们通过考虑数据隐私法提供了此类操作。这项研究的目的不是准确地预测任何事情。就是用最接近其所在位置的数据来预测用户的行为，并确保运营团队得到相应的指导，并确保地方政府可以根据这些行为制定公理。

深入了解它的结构及其包含的内容。数据集由 9601139 行和 26 列组成[1]。它包含首尔市出租自行车

期间：骑行时间（分钟）
距离：骑行距离（米）
经度(Long) : 经度
纬度(Latd) : 纬度
哈弗辛： 确定球体上两点之间的大圆距离，给定它们的经度和纬度。这是随后使用纬度和经度数据准备的。但是，由于它被视为准备好的数据集，因此没有对其采取任何操作。
月-周-日-时-分 : 日期数据。日期字段下的日期数据被解析并排列为每个单独的特征（P 为起始值，D 为结束值。）
温度（温度）： 摄氏温度
降水量（沉淀）： 降水数据。它是与温度值一起解释的值。（立方米）
风：风速（米/秒）
湿：湿度（％）
太阳的： 太阳辐射 (MJ/m2)
雪：降雪量（厘米）
地面温度： 摄氏地面温度
灰尘： 空气中粉尘百分比（%）

数据集中没有分类数据。没有任何空值的行。第一个模型没有进行任何特征提取或数据处理，因为它们是通过 Kaggle 制作的。但是，数据制造商公开向踏板车提供商提供的数据添加了一些其他功能。第一个是Haversine 特征。 Haversine 是使用纬度和经度值的距离测量计算。数据集介绍中对此进行了说明。此外，数据创建者还添加了与天气状况相关的功能，并考虑了驾驶日期。

在估算每小时的滑板车数量时，对数据集进行了一些调整。 python pandas 库用于计算日常计算。为了适合模型，数据按小时分组，并在“计数”功能下计算出行次数。然后，尝试使用回归模型预测此特征。

四、测试结果及结果解释

首先，从数据集中删除距离和半正弦特征，并尝试估计距离。随机抽样以 0.01 分数进行。一开始，由于模型简单，使用线性回归算法及其优化方法，套索和岭方法。与每种方法一样，均使用 RMSE、MSE 和 R2 分数作为评估指标。然后使用 MLP 算法。训练这个模型需要很长时间，因为 0.01 分数的数据量有点太多了。通过进一步降低分数比，模型的训练速度更快。然后，使用决策树、XGBooster、SVM 算法并比较 R2 分数。使用决策树确定特征重要性，并尝试检查输入对输出的影响。可以看出，骑行时间的影响比其他输入的影响要大得多。这种情况倒是顺理成章，其实距离越远，骑行时间越长。除此之外，开始和到达纬度经度的影响是紧随其后的特征。例如，在人流量大的地方，行车速度会降低，因此短途旅行的时间可能会增加。这是我们看到它们的重要途径。在这里，人们认为如果有用户数据，距离估计可以做得更好。因为某些用户由于某些原因可以旅行有限的距离，但无法在此数据中找到他们。例如，可能有每天上班或上学的客户。通过这些可以捕捉到一种模式。从图中可以看出，最成功的模型是 XGBooster，但 R2 值仍然不是很高，这表明数据需要再丰富一点。例如，刚刚提到在估计距离的同时拥有用户数据。可以看出，与其他模型相比，决策树模型相当不成功。其他模型给出了几乎相同的结果。

通过使用 0.003 分数进行随机抽样来训练聚类模型。首先尝试寻找温度与半正弦之间的关系。还检查了其他关系，但未能达到预期的结果。对所有特征之间的关系进行聚类。模型部分描述了使用的方法。已经使用了由不同方法组成的聚类算法。没有找到想要的结果。在接触图表的模型中，通常所有数据都是相互交织的。由于无法找到非常重要的模式，因此这些模型没有得到太多强调。下面是用高斯混合分析的持续时间半正弦模型。其他显示在工作笔记本中。

多输出回归模型用于估计到达的经纬度。为此，使用了线性回归、KNN 和决策树算法。比较 MSE、RMSE 和 R2 分数作为评估指标。在训练模型时，从数据集中删除了到达的经纬度和半正弦特征。在这里，距离应该是不知道的，但是当它是那样的时候，模型的成功率就会下降很多。事实上，如果我们能以某种方式正确估计距离，我们就能找到它可以去的地方。在估计距离时，这可以通过添加如上所述的不同特征来实现。例如，在一项研究中，通过使用纬度-经度值将附近重要地点的数据添加到数据集中。也就是说，如果起点100m以内有学校、政府机关等，就可以添加信息。如果可以通过这种方式估计距离，那么也可以估计实际目的地。这些数据对于地方政府和电动滑板车供应商来说也足够了。将出现可能会以这种方式使用的地方。路线会显示得更清楚。此外，还将确保为当地政府提供公共交通路线研究、滑板车停车定位和有效利用滑板车供应商的现场团队。换句话说，它是一种可用于将要建设的地方的城市规划的方法。踏板车供应商也可以使用这些数据来确保成功开始新地区的运营。模型结果的比较如下所示。

随机抽样以 0.003 分数进行。通过从数据集中减去持续时间特征，目标被确定为一个变量。为此，训练了线性回归和 XGBooster 模型。线性回归的 r2 得分为 0.72，XGBooster 的 r2 得分为 0.85。距离估计是从线性回归模型开始的，这是一个简单的模型，然后训练了比其他模型更成功的 XGBooster 模型。这里的目的是在估计持续时间后根据最常用的滑板车位置来估计持续时间。可以计算踏板车的半径与持续距离一样多，并且可以确定操作位置。根据持续时间估计，可以给出用户使用的滑板车可能没电的警告。在某些情况下，认为收费就足够了，但由于在崎岖地形的收费支出较高，因此可能会发生道路停车。通过避免这些情况，可以尝试提高客户满意度。

最后，对数据集进行了特征提取，使其适合训练。这里的目的是观察骑乘人数如何根据小时和月份表现。通过这种方式，旨在通过防止现场团队不必要的工作来减少能源消耗。总的来说，在检查月度数据时，没有发现太大的差异。但是在冬天的几个月里，骑行的次数会减少一点。然后，试图估计每小时的驾驶人数。为此，使用了线性回归、决策树、随机森林、梯度提升和 MLP 算法。已经使用 GridSearchCV 方法测试了随机森林和 MLP 的各种参数。已尝试参数以获得更好的建模，并努力改进模型。针对训练和测试数据测量了单独的评估指标。以下结果的比较是针对测试数据进行的测试。随机森林和梯度提升算法已成为计数估计的成功模型。模型结果的比较如下所示。

5。结论

已经尝试通过对数据集的许多不同方法来理解用户行为。检查距离和持续时间估计以及用户习惯。通过进行经纬度估计，试图了解可能的路线和密集使用的区域。通过这种方式，旨在支持地方政府和踏板车供应商的运营。评估模型结果和推论。为此，提出了一些建议。据说通过在未来的研究中丰富数据集可以获得更成功的结果。由于用户数据保护限制，遇到了一些限制，但可以通过在提供这些数据的公司进行的研究中访问这些数据来进行更准确的评估。

参考

Github 上 Notebook 的链接： https://github.com/okanexe/machine-learning-final-project

本文链接：https://www.qanswer.top/15672/49120510

posted @ 2022-09-05 10:49 哈哈哈来了啊啊啊阅读(88) 评论(0) 收藏举报

刷新页面返回顶部

amboke

了解电动滑板车骑手的行为

了解电动滑板车骑手的行为

一、简介

2. 文献研究

3. 数据集、数据属性和特征

四、测试结果及结果解释

5。结论

参考

公告