5 号码汇总 |数据科学统计

5 号码汇总 |数据科学统计

在本博客中,我们将介绍 5 个数字摘要以及如何使用它来识别异常值,并讨论箱线图。

5 数字摘要是一组描述性统计数据,用于获取有关数据集的信息,但仅适用于 单变量 变量。它用于观察——

  • 最小值(数据集中的最小值)
  • 第一个四分位数(数据集的 25%)(Q1)(第一半数据的中位数)
  • 中位数
  • 第三四分位数(数据集的 75%)(Q3)(第三半数据的中位数)
  • 最大值(数据集中的最大值)

第一四分位数和第三四分位数是数据集第一半和第二半的中位数。

第一四分位数和第三四分位数也用于查找四分位数间距 (IQR)。当从最低到最高排序时,四分位数范围描述了 50% 的值。找到四分位数范围的公式是 -

在哪里 -

  • Q3 - 第三四分位数
  • Q1 - 第一个四分位数

现在你知道了关于 5 数字摘要的一切。让我们看看它如何用于识别异常值并有助于制作箱线图。

现在要找到数据集中的异常值,我们首先必须找到较低的栅栏和较高的栅栏。下围墙和上围墙是我们的数据应该位于的边界。位于边界之外的数据将被视为异常值。

找到较低栅栏和较高栅栏的公式 -

在哪里 -

  • Q1 是第一个四分位数
  • Q3 是第三个四分位数
  • IQR 是四分位距

现在让我们通过一个例子来了解如何制作箱线图,并在 5 个数字摘要的帮助下找出异常值。

数据 = [1,2,2,2,3,3,3,4,5,5,5,6,6,6,6,7,8,8,9,30]

我们采用大小为 20 的虚拟数据。您可以在右侧的数据中清楚地看到,我们有 30 个作为异常值,因为它与数据中的其他元素相比非常大,但我们将证明这是一个异常值在 5 个数字摘要的帮助下。

首先,找到数据的最小值和最大值。我们的数据最小值为 1,最大值为 30

现在我们将找到第一个四分位数(Q1)和第三个四分位数(Q3)

现在我们将找到数据的下界和高界 -

数据中的所有值都应在 [ — 2.25, 11.75] 范围内。低于 -2.25 和高于 11.75 的值将被视为异常值。在我们的数据中,30 将被视为异常值,因为它不在一个范围内。

5 我们的数据总结——

什么是箱线图以及如何构建它们?

箱线图是 5 个数字汇总的图形表示,有助于查找数据集中的异常值。异常值是由于实验误差或测量变异性而与其他数据点显着不同的数据点。

现在我们将从示例数据集构建箱线图

现在让我们也看看python代码中的5个数字摘要和箱线图

pandas DataFrame 的 describe() 方法显示 5 个数字摘要

上述代码的输出 -

python代码中的箱线图 -

输出 -

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37908/02171911

posted @ 2022-09-19 11:02  哈哈哈来了啊啊啊  阅读(6)  评论(0编辑  收藏  举报