Excel 的盒须图 离群值 Outliers

Excel 中的盒须图

翻译自https://www.excel-easy.com/examples/box-whisker-plot.html
本示例教您如何在Excel中创建盒须图。盒须图显示了数据集的最小值,第一四分位数,中位数,第三四分位数和最大值。

简单盒须图

  1. 例如,选择范围A1:A7。

    注意:您不必对数据点从最小到最大的顺序进行排序,但这将有助于您理解盒须图。

  2. 在“插入”选项卡上的“图表”组中,单击“统计图表”符号。

  3. 点击箱线图(盒须图)

    结果:

    说明:框的中间线代表中位数或中间数(8)。框中的x表示平均值(在此示例中也为8)。中位数将数据集分为下半部分{2,4,5}和上半部分{10,12,15}。框的底线代表下半部分或第一四分位数(4)的中位数。框的顶行代表上半部分或第三个四分位数(12)的中位数。须(垂直线)从盒子的两端延伸到最小值(2)和最大值(15)。

离群值

  1. 例如,选取范围 A1:A11.

    注意:中位数或中位数(8)将数据集分为两半:{1、2、2、4、5}和{10、12、15、18、35}。第一四分位数(Q1)是上半部分的中位数。Q1 =2。第三个四分位数(Q3)是下半部分的中位数。Q3 = 15。

  2. 在“插入”选项卡上的“图表”组中,单击“统计图表”符号。

  3. 点击箱线图(盒须图)

    结果:

    说明:四分位数间距(IQR)定义为第一四分位数与第三四分位数之间的距离。在此示例中,IQR = Q3-Q1 = 15-2 =13。如果数据点的距离超出第一个四分位数以下IQR的1.5倍(Q1- 1.5 * IQR = 2-1.5 * 13 =-17.5)或高于第三四分位数的IQR的1.5倍(Q3 + 1.5 * IQR = 15 + 1.5 * 13 = 34.5)。因此,在此示例中,35被认为是异常值。结果,顶部晶须延伸到该范围内的最大值(18)。

  4. 将最后一个数据点更改为34。

    结果:

    说明:所有数据点都在-17.5和34.5之间。结果,须扩展到最小值(2)和最大值(34)。

箱线图计算

在大多数情况下,如果不执行计算,就无法轻松确定第一四分位数和第三四分位数。

  1. 例如,在下面选择偶数个数据点

  2. 在“插入”选项卡上的“图表”组中,单击“统计图表”符号。

  3. 点击箱线图(盒须图)

    结果:

    说明:Excel使用QUARTILE.EXC函数来计算第一四分位数(Q1),第二四分位数(Q2或中位数)和第三四分位数(Q3)。此函数在两个值之间插值以计算四分位数。在此示例中,n = 8(数据点数)。

  4. Q1 =第1/4 *(n + 1)个值= 1/4 *(8 + 1)个值= 2 1/4个值= 4 + 1/4 *(5-4)= 4 1/4。您可以使用QUARTILE.EXC函数或查看盒须图来验证此数字。

  5. Q2 =第1/2 *(n + 1)个值= 1/2 *(8 + 1)个值= 4 1/2个值= 8 + 1/2 *(10-8)=9。这使得在某种意义上,中位数是中间两个数字的平均值。

  6. Q3 =第3/4 *(n + 1)个值=第3/4 *(8 + 1)个值= 6 3/4个值= 12 + 3/4 *(15-12)= 14 1/4。同样,您可以使用QUARTILE.EXC函数或查看盒须图来验证此数字。

在Excel中创建有离群值的箱线图

翻译自http://www.real-statistics.com/excel-capabilities/creating-box-plot-outliers-manually/
创建带有异常值的箱形图的步骤(参见带有异常值的箱形图)与特殊制图功能中描述的步骤相似。一个主要区别是,它不是以最大数据值结束顶部须,而是以小于或等于Q3 + 1.5 * IQR的最大数据值结束。同样,底部须以大于或等于Q1 – 1.5 * IQR的最小数据值结束。另一个区别是我们需要手动添加一个小圆圈或每个大于Q3 + 1.5 * IQR或小于Q1 – 1.5 * IQR的数据值。我们还在平均值数据值处添加一个×。

示例1

重复特殊制图功能的示例2,显示异常值。
结果如图1所示。我们现在展示如何使用标准Excel功能手动构建此输出。

图1-带有异常值的箱形图

要手动创建此箱形图,您需要首先创建F12:F17范围内的值。通过公式 =QUARTILE(A4:A13,1), =MEDIAN(A4,A13), =QUARTILE(A4:A13,3) 和= =AVERAGE(A4:A13),分别计算 品牌A在F12:F17范围内的Q1,中位数,Q3和平均值。品牌A的“Lower”(即较低的须)和“Upper”(即较高须)的值是通过数组公式计算得出的
=MIN(IF(A4:A13>=F12-1.5(F14-F12),A4:A13,””))
=MAX(IF(A4:A13<=F14+1.5
(F14-F12),A4:A13,””))

请记住,这些是数组公式,因此您需要按Ctrl-Shift-Enter,而不仅仅是Enter

输入所有这些公式后,选中F12:H17并按Ctrl-R。接下来,将公式= F12放在单元格F6中,选中F6:H6,然后按Ctrl-R。最后将公式=MAX(F13-F12,0) 放在单元格F7中,选中F7:H10并依次按下 Ctrl-RCtrl-D组合键。这将填充F6:H10范围内的所有值。

现在,您将按照与特殊制图功能中示例1或2中相同的步骤进行操作,将“Lower”和“Upper”替换为“Min”和“Max。结果将如图1所示,不同之处在于未显示离群值和均值的o和×符号。现在我们展示如何分别添加这些符号。

我们首先为每个品牌添加平均值。单击图1中的图表,然后选择图表工具|设计>数据|选择数据。这将弹出如图2所示的对话框。

图2-选择数据源

单击添加按钮(在对话框的左侧)。填写出现的对话框,如图3所示。

图3-添加新的均值序列

当您按下OK按钮时,图表将变为图4所示的图表。

图4-修改后的图表

我们得到此结果,因为Excel将添加的均值解释为堆叠的条形图。我们需要告诉Excel该添加的系列应解释为散点图。为此,我们首先单击再次出现的“选择数据源”对话框的“确定”按钮(请参见图2)以关闭此对话框,然后右键单击图4所示的任何蓝色条。我们接下来从显示的菜单中选择更改图表类型...。现在将出现如图5所示的对话框。

图5-``更改图表类型''对话框

从图5中可以看到,这些工具被视为堆积列(Stacked Column)。现在,单击m的下拉菜单(以Stacked Column为标题),然后选择第一个Scatter Plot选项。然后按“更改图表类型”对话框上的“确定”按钮。
图表更改为更可接受的格式,如图6所示。

图6-添加品牌均值后的方框图

现在,我们将异常值添加到图表中,但是首先我们需要确定异常值。一种实现此目的的方法如图7所示。

图7-识别异常值

我们将公式 =IF(A4>F$15,A4,IF(A4<F$11,A4,””))放在单元格Q4中,选中Q4:S13,然后按Ctrl-RCtrl-D。我们发现,品牌B仅存在两个异常值,即-300和1850。

现在,我们使用类似于添加平均值的过程,将这两个离群值逐一添加到图表中。要添加1850,请单击图6中的图表,然后选择图表工具|设计>数据|选择数据。这将弹出如图2所示的对话框。再次单击Add按钮。填写出现的对话框,如图8所示。

图8-为一个异常值添加新系列

请注意,这次默认图表是散点图(最后选择的图表类型),因此系统会提示我们输入X和Y值(与图3中的提示不同)。由于离群值1850(如图7的单元格R10中所示)位于品牌B中,因此我们必须在“系列X值”字段中插入2。

我们以类似的方式添加离群值-300。结果如图9所示。

图9-带有异常值的箱形图

最后一步是更改用于指示异常值的标记符号。我们展示了如何在Excel 2013中执行此操作。此方法在其他版本的Excel中也类似。

单击离群值标记符号之一,然后选择“图表工具” |“格式”>“当前选择” |“格式选择”。单击“填充和线条”图标,然后选择“标记”选项。请参见图10。接下来,从“标记选项”中单击“内置”,然后选择所需的类型。您还可以选择颜色(图10的右下角)。

图10-更改标记类型

现在,对其他异常值重复上述步骤。

观察:请注意,尽管存在一个负值,即品牌B的离群值-300(图1的单元格B11),但使用“实数统计”的“带异常值的箱形图”选项时,无需对负值进行调整描述性统计和常态数据分析工具。这样做的原因是,较低的须没有一个进入负范围。
从单元格F18中的公式=MIN(0,F11:H11)可以看出。只要该值为零且不为负,则无需进行调整。

示例2

使用Real Statistics Descriptive Statistics and Normality数据分析工具的Box Plot with Outliers选项为图11的A6:A16范围内的数据创建Box Plot。
如果我们重复示例1所述的所有步骤,这一次我们发现品牌B的须确实处于负数区域。从图11的单元格F18包含负值-50的事实可以明显看出这一点。
尽管如此,对于示例1所述的手动过程仍不需要更改。当我们使用Real Statistics Descriptive Statistics and Normality数据分析工具时,数据分析工具会进行调整以处理图11单元格F18中的负值。

图11-具有离群值的箱形图,负调整
实数统计数据分析工具在执行示例1所述的过程时所做的主要更改,是在单元格F5中使用以下公式=F11-$F18。选中F5:H5并按Ctrl-R后,将对所有三个品牌的“Lower”值进行类似的调整。
数据分析工具还可以通过–F18(即加50)来调整均值和离群值。图12显示了如何识别离群值。这是通过在单元格R7中插入公式=IF(A4>F\(15,A4-\)F$18,IF(A4<F\(11,A4-\)F$18,””))并突出显示范围Q4:S13并按Ctrl-RCtrl-D
图12-异常值的负调整
这将产生三个离群值,对于品牌A为50,对于品牌B为1850,对于品牌B为-300,分别增加了50。4对C的回应

在Excel中创建简单的箱形图

翻译自 http://www.real-statistics.com/excel-capabilities/special-charting-capabilities/
Box Plots中,我们看到了如何使用Real Statistics Descriptive Statistics and Normality数据分析工具的Box Plots选项创建Box Plots。现在,我们展示如何使用Excel的图表功能手动创建这些箱形图。

示例1:

使用Excel的图表功能为“箱形图”示例1创建箱形图。

图1 –箱线图数据
选择包含数据的范围,包括标题(A3:C13)。现在,在E3:H8范围内创建表。F列中的输出对应于A列中的原始数据。G列对应于B列,H列对应于C列。实际上,一旦您构造了范围F4:F8的公式,就可以填写其余的通过突出显示范围F4:H8并按Ctrl-R来显示表格。
F4:F8范围内的单元格的公式如下:

图2 –箱形图表公式
构造表格后,可以如下创建相应的箱形图:

  1. 选择数据范围E3:H7。请注意,标题包括在范围内,但不包括最后一行。
  2. 选择“插入”>“图表|列”>“堆积列”
  3. 如果需要,请选择“设计”>“数据” |“切换行/列”,以便X轴代表品牌选择图表中最低的数据系列(即最小值),然后将填充设置为无填充(必要时将边框颜色设置为无线)以删除最低的框。通过右键单击图表中的三个“最小”数据系列框,然后选择“设置数据系列格式”,可以完成此操作。在出现的对话框中,选择“填充|不填充”
  4. 对最低可见数据序列(即Q1-Min)重复上述步骤;即,右键单击Q1-Min数据系列,然后选择格式化数据系列…>填充|不填充。或者,右键单击Q1-Min数据系列,然后按Ctl-Y。
  5. 在仍选择Q1-Min数据系列的情况下,选择“布局”>“分析” |“错误栏”>“更多错误栏选项”。在出现的对话框(“垂直误差栏”菜单)上,单击“减去”“百分比”单选按钮,然后插入100%的百分比误差。
  6. 单击Q3-Med数据系列(最上面的一个),然后选择“布局”>“分析” |“错误栏”>“更多错误栏选项”。在出现的对话框(“垂直错误栏”菜单)上,单击“增加”“自定义”单选按钮,然后单击“指定值”按钮。现在在显示的对话框中(在“正错误值”字段中)指定范围F8:H8,即您在上面创建的表的最后一行。
  7. 通过选择布局>标签|图例>无来删除图例。

结果箱形图是

图3 –箱形图
观察:
上述方法非常适用于非负数据。当数据集为负值时,轴将向上移动–MIN(R),其中R是包含数据的数据范围。因此,如果R的范围是-10到20,则图表中的范围将是0到30。这对于上述手动方法以及由Real Statistics Resource Pack中的补充数据分析工具生成的箱形图均适用。。现在,我们展示当一个或多个数据元素为负数时,如何手动生成箱形图。

示例2:

使用Excel的图表功能为图4中的数据创建箱形图。
图4包含与图1相同的数据,除了我们更改了单元格B11中的值使其为负。

图4 –负数据的箱形图
根据数据,我们按照上述方法在E3:H8范围内构造了修改后的表格,然后执行以下步骤来创建图表:

  1. 选择数据范围E3:H6。请注意,标题包括在范围内,但不包括最后两行。
  2. 选择“插入”>“图表|列”>“堆积列”
  3. 如有必要,请选择“设计”>“数据” |“切换行/列”,以使轴代表品牌。
  4. 选择图表中最低的数据系列(即Q1),然后将填充设置为不填充''(必要时将边框颜色设置为无线'')以删除最低的框。通过右键单击图表中的三个Q1数据系列框中的任意一个,然后选择“设置数据系列格式”,可以完成此操作。在出现的对话框中,选择“填充|不填充”
  5. 在仍选择Q1数据系列的情况下,选择“布局”>“分析” |“错误栏”>“更多错误栏选项”。在出现的对话框(“垂直错误栏”菜单)上,单击“减号”“自定义”单选按钮,然后单击“指定值”按钮。现在,在显示的对话框中(在“负误差值”字段中)指定范围F7:H7,即上面创建的表的倒数第二行。
  6. 单击Q3-Med数据系列(最上面的一个),然后选择“布局”>“分析” |“错误栏”>“更多错误栏选项”。在出现的对话框(“垂直错误栏”菜单)上,单击“加号”“自定义”单选按钮,然后单击“指定值”按钮。现在在显示的对话框中(在“正错误值”字段中)指定范围F8:H8,即您在上面创建的表的最后一行。
  7. 通过选择布局>标签|图例>无来删除图例

结果图表如下:

图5 –箱形图:替代方法
观察:
不幸的是,Real Statistics Resource Pack中的数据分析工具无法自动生成此箱形图。当出现负数据时,有两种选择:
如示例2中所述手动生成箱形图
使用Real Statistics描述性统计和正态数据分析工具的Box Plot选项(如Box Plots中所述),并接受y轴将向上移动,或者通过右键单击y来删除y轴上的标签y轴上的标签,然后选择删除(或按Backspace键)

带异常值的箱形图

Excel 2016添加了“框线图”功能。要在Excel中使用此功能创建箱形图,请选中A2:C11(来自图1),然后选择“插入”>“图表” |“统计”>“箱线”。将会出现图1右侧所示的图表。

图1-Excel的Box和Whiskers图表
您可以像往常一样添加图例以及图表和轴标题。图表的方框部分如上所述,不同之处在于平均值显示为×。晶须从框的顶部向上延伸到小于或等于四分位间距(IQR)的1.5倍的最大数据元素,而从框的底部向下延伸到大于1.5倍的四分位数间距的最小数据元素。IQR。超出此范围的值被认为是离群值,并以点表示。
盒和须的边界由图2中所示的值和公式计算得出。唯一的异常值是品牌B的值1850,该值高于上须,因此显示为点。

图2-箱形图的公式
注意我们也可以使用数组公式
=MAX(IF(C2:C11<=H7,C2:C11,MIN(C2:C11)))
计算单元格H9中的值,以及数组公式
=MIN(IF(C2:C11>=H8,C2:C11,MAX(C2:C11)))
计算单元格H10的值。
实际上,由于Excel Box Plot仅在Excel 2016中可用,因此我们也可以使用Excel 2016(非数组)公式=MAXIFS(C2:C11,”<=”&H7) and =MINIFS(C2:C11,”>=”&H8)。
Real Statistics数据分析工具:Real Statistics资源包还提供了一种生成带有异常值的箱形图的方法。要生成这样的箱形图,请按照在Excel中创建箱形图的示例1进行操作,只是这次您应选择描述性统计和正态数据分析工具的具有异常值的箱形图选项。图3显示了在Excel中创建箱形图示例1的输出。
图3 –带离群值工具的箱形图输出
如您所见,输出类似于图1所示,除了该版本在Excel 2016以外的其他版本的Excel中可用。此外,离群值乘数不是固定为1.5,但可以通过设置为另一个值。用户(在“描述性统计和正态数据分析工具”对话框中)。
离群值乘数显示在图3中显示的输出的单元格F2中。此值用于计算最小值和最大值(这是下晶须底部和上晶须顶部的值)。例如。单元格F12包含数组公式 =MIN(IF(ISBLANK(A4:A13),””,IF(A4:A13>=F13-\(F2*(F15-F13),A4:A13,””))) 和单元格F16包含公式 =MAX(IF(ISBLANK(A4:A13),””,IF(A4:A13<=F15+\)F2*(F15-F13),A4:A13,””))) 。
如果在“配置”对话框中设置了“百分比”选项,则应在“异常值乘数”字段中输入所需值的100倍;例如如果要使用1.5离群倍数,请输入150。还要注意,如果将此字段留为空白,则异常值乘数因子默认为2.2。

负数的处理方式类似于没有异常值的箱形图的处理方式(通常使用第二个y轴)。但是请记住,仅当至少一个箱形图的下部晶须为负数时,才使用第二个y轴。如果一些离群值是负值,但下部须都不是负值,则不需要第二个y轴。

有关如何仅使用Excel图表功能手动创建带有离群值的框形图的信息,请参见在Excel中创建带有离群值的框形图。某些数据为负数时出现的问题也在此进行了更深入的探讨。

译者注: Real Statistics Descriptive Statistics and Normality数据分析工具的**是Real Statistics网站开发的一个Excel插件。

posted @ 2020-07-28 23:32  chinagod  阅读(7530)  评论(0编辑  收藏  举报