基于R语言的数据分析和挖掘方法总结——中位数检验

3.1 单组样本符号秩检验(Wilcoxon signed-rank test)

3.1.1 方法简介

此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于、小于或等于某一特定数值。当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议改以单组样本均值t检验(one-sample t-test)检验总体均值。
注:总体中位数经常和均值一样, 因此检验中位数即检验均值。

3.1.2 公式

3.1.3 实现范例

  1. 范例A-2:石油定价差异的分析 物价不断上涨,各项与民生问题有关的物品都会受到关注,而每日上班需使用到交通工具使用的汽油与柴油也是大众生活的重要支出。由于石油是一种同时具备战略考虑与民生问题双重属性的特殊物品,因此油价的波动会影响民生问题,为了推动国内油价市场的公平性与合理性,降低非经济因素的影响,使国内油价能回归市场机制,负责部门于2007年1月开始实施浮动油价的机制,经过多次的修订与调整,该计价制度推行至今。由于近几个月来国际油价的波动剧烈,进而影响到一般百姓最关心的汽柴油价格,某研究民生议题的机构想了解该国主要两个石油公司A石油公司及B石化公司的浮动油价是否有差异,由北至南收集了A公司与B公司在该国9个地区的加油站油价(元/升),如下表所示。 1

问题:
在浮动油价制度制定之前,国内的汽油价格为30元/升,研究机构想了解在实施浮动油价制度后,国内的平均油价是否高于实施之前,并以A公司的数据加以比较。

问题解析:
此问题可讨论A公司的平均油价与制度实施前油价加以比较,故讨论"A公司的平均油价是否大于30元/升?"。

统计方法:
此问题中变量为石油公司的油价,为单一变量(一个变量,建议选择单变量分析);想了解A公司的油价,视为一组样本且仅有样本量9个,小于30笔;可采用分析方法:单组样本中位数检验(Wilcoxon signed-rank test),检验"A公司的平均油价是否高于30元/升?"。

解析:

  • 此题可建立原假设为"A公司的平均油价小于等于30元/升",即H0: mA≦30。
  • 建立数据文件上传,文件格式请参照上传文件说明。
  • 按照分析步骤说明分析数据。

R语言程序:

分析结果:

  • 分析方法:单组样本中位数检验
  • 数据名称:范例A-2
  • 变量名称:A公司
  • 显著水平:0.05
  • 检验中位数:30
  • 检验方向:右尾检验
  • 计算时间:0.08秒
  • 样本描述统计量I:

2
I:样本描述统计量都不包含缺失值

  • 等级信息:

3

  • 单组样本中位数检验:

4

  • 分析结果建议:

由于检验结果P-值(0.14189) > 显著水平0.05,因此无法拒绝原假设。

3. (独立)两组样本秩和检验(Wilcoxon ranKolmogorov-Smirovum test)

3.2.1 方法简介

此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon秩和(ranKolmogorov-Smirovum)检验,当数据包含两组样本时,可用此方法检验此两组样本间总体中位数的差异值是否大于、小于或等于某一特定数值。此方法又称为Mann-Whitney U检验(Mann-Whitney U test),当样本数够大时(通常样本个数≧30的样本可视为样本数够大),建议可用(独立)两组样本均数的t检验(Two-sample t-test)检验平均数差。
注:总体中位数经常和平均数一样, 因此检验中位数差即检验平均数差。

3.2.2 实现范例

1. 范例A-2:石油定价差异的分析

物价不断上涨,各项与民生问题有关的物品都会受到关注,而每日上班需使用到交通工具使用的汽油与柴油也是大众生活的重要支出。由于石油是一种同时具备战略考虑与民生问题双重属性的特殊物品,因此油价的波动会影响民生问题,为了推动国内油价市场的公平性与合理性,降低非经济因素的影响,使国内油价能回归市场机制,负责部门于2007年1月开始实施浮动油价的机制,经过多次的修订与调整,该计价制度推行至今。由于近几个月来国际油价的波动剧烈,进而影响到一般百姓最关心的汽柴油价格,某研究民生议题的机构想了解该国主要两个石油公司A石油公司及B石化公司的浮动油价是否有差异,由北至南收集了A公司与B公司在该国9个地区的加油站油价(元/升),如下表所示。

5

问题:

由于浮动油价制度使得各石油公司可针对成本的差异而制定不同的油价,研究机构想了解国内最大的两家油品供货商制定的油价平均是否有差异?

问题解析:

此处可将两油品供货商于各地所收集的油价数据加以比较,讨论问题"A公司的平均油价减去B公司的平均油价是否不为0?"。

统计方法:

此问题中变量为石油公司的油价,为单一变量(一个变量,建议选择单变量分析);石油公司有两家,可视为两组样本且仅有样本量9个,小于30笔;另A公司与B公司油价制定应无关系,故两组数据可视为独立;可采用分析方法:(独立)两组样本秩和检验(Wilcoxon rank-sum test),检验"A公司的平均油价减去B公司的平均油价是否不为0?"。

解析:

  • 此题可建立原假设为"A公司的平均油价减去B公司的平均油价等于0?",即H0: mA- mB=0。
  • 建立数据文件上传,文件格式请参照上传文件说明。
  • 按照分析步骤说明分析数据。

R语言程序:

分析结果:

  • 分析方法:(独立)两组样本秩和检验
  • 数据名称:范例A-2
  • 检验变量:_NEW_
  • 分组变量:_GROUP_(A公司, B公司)
  • 显著水平:0.05
  • 检验中位数差异:0
  • 检验方向:双边检验
  • 计算时间:0.098秒
  • 样本描述统计量I:

6

I:样本描述统计量都不包含缺失值

  • 等级信息:

7

  • 两组样本秩和检验(独立样本)I:

8

  • 分析结果建议:

由于检验结果P-值(0.59548) > 显著水平0.05,因此无法拒绝原假设。

3.3 (成对)两组样本符号秩检验(Wilcoxon signed-rank test)

3.3.1 方法简介

此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法中的Wilcoxon符号等级(signed-rank)检验,当数据包含两组样本并且样本两两成对时,若要检验两组样本的总体中位数是否相同,可先计算数据中两两成对样本的差异值(如减肥前体重与减肥后体重相减),此笔差异值数据即为单一组样本,再利用此方法检验此差异值数据的总体中位数是否大于、小于或等于某一特定数值。当样本数够大时(通常样本个数≧30的样本可视为样本数够大),建议可用(成对)两组样本均数的t检验(Two-sample t-test for paired data)检验平均数差。
注:总体中位数经常和平均数一样, 因此检验中位数差即检验平均数差。

3.3.2 实现范例

1. 范例A-10:国安基金对稳定股市的功能

背景描述:

1989年,台湾股市达到了万点以上,曾有一段时间,股市可以说是全民运动,不管是什么职业,多少收入,全民都关注着高利润的股市。随着经济的泡沫化,万点股市也随之大跌,造成当时的一大堆散户被套牢,损失惨重。全民疯狂投资股市的情况冲击了当时的经济,改变了民众的社会价值观,为避免重蹈覆辙,政府着手多项政策来改变股市大起大落对经济的影响及改变民众投机的心理,如开征证卷交易所得税等政策。另外在1996年股市受到台海飞弹危机的非经济因素影响时,政府责成七个单位组成「股市稳定小组」集资新台币2000亿成立股市稳定基金来稳定股市;在1999年股市因两国论而暴跌,政府于2000年正式组成专门负责稳定股市的国安基金,在这以后,国安基金在许多重要时刻发挥了稳定股市的作用。某证卷研究机构欲知国安基金在投入股票市场后,对各种股票的影响有多大,是否真的发挥了稳定股市的价值,共搜集了8家上市公司的股票价格记录在国安基金投入前后并分析。

表:国安基金进场前后上市公司的股价,单位:元。
9

问题:

在国安基金进场护盘后,对于此8家上市公司股价是否会有影响呢?研究机构想了解国安基金是否真的有其稳定股市的作用呢?

问题解析:

此处要了解国安基金是否发挥稳定股市的功能,须了解在进场前与进场后的股价差异,若进场后使得股价回升,表示国安基金能发挥稳定市场的机制,使得进场后的股价高于进场前的股价,可讨论问题"进场后股价减去进场前股价是否大于0元?"。

统计方法:

此问题中,变量为上市公司的股价,为单一变量(一个变量,建议选择单变量分析);上市公司的股价有区分为进场前与进场后,视为两组样本,且仅有8家上市公司样本量小于30,但此处讨论国安基金投入股票市场后,对各种股票的影响,故数据需要被成对分析;可采用分析方法:(成对)两组样本秩和检验(Wilcoxon signed-rank test),检验"进场后股价减去进场前股价是否大于0元?"。此处需注意,因为每只股票价格有进场前与进场后数据,这种数据的记录方式称为成对,故此时分析需注意数据须被"成对"使用,无法将数据分开讨论。

解析:

  • 此题可建立原假设为"进场后股价减去进场前股价小于等于0",即H0: m进场后- m进场前≦0。
  • 建立数据文件上传,文件格式请参照上传文件说明。
  • 按照分析步骤说明分析数据。

分析结果:

  • 分析方法:(成对)两组样本秩和检验
  • 数据名称:范例A-10
  • 变量名称:进场后 - 进场前
  • 显著水平:0.05
  • 检验中位数差异:0
  • 检验方向:右尾检验
  • 计算时间:0.084秒
  • 样本描述统计量I:

10

I:样本描述统计量都不包含缺失值

  • 等级信息:

11
I:进场后 - 进场前 > 0
II:进场后 - 进场前 < 0
III:进场后 - 进场前 = 0

  • 两组样本秩和检验(成对样本):

12

I:以正等级为计算基础
II:显著性代码:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析结果建议:

由于检验结果P-值(0.046446) < 显著水平0.05,因此可拒绝原假设。

3.4 (成对)多组样本秩和检验(Kruskal-Wallis test)

3.4.1 方法简介

此处的统计分析方法为Kruskal-Wallis检验,是由William Kruskal与W. Allen Wallis两位统计学家将非参数方法中两组样本中位数检验推广至多组样本后所提出。当数据中包含多组样本(三组以上样本),且想了解多组样本间总体中位数是否有差异时,可使用这种方法。当样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议使用(独立)多组样本方差分析(方差分析)(ANalysis Of VAriance, ANOVA)检验均值差。
注:总体中位数经常和均值一样, 因此检验中位数差即检验均值差。

3.4.2 实现范例

1. 范例A-10:国安基金对稳定股市的功能

背景描述:

儿童节快到了,某超市经理想趁节日到来举办促销活动以此提高超市的业绩,因此他对超市中正在销售的三种糖果品牌收集了10天的销售量数据(单位:千克),想了解不同糖果品牌受到儿童喜爱的程度,数据列于下表中。

13

问题:

由于各糖果商皆希望该连锁超市能以自己的品牌为主打商品,店经理为了公平起见,以三个品牌的平均销售量比较为基准来选出主打商品,哪一家会获选呢?

问题解析:

要了解三家糖果商的销售量差异需比较三家的平均销售量是否有差异,故讨论问题"三个糖果品牌的平均销售量是否有差异?"。

统计方法:

此问题中,变量为糖果品牌的销售状况,为单一变量(一个变量,建议选择单变量分析);品牌共有三种可视为有三组的数据且样本量10小于30;三个品牌的销售关联性不大可视为独立样本;可采用分析方法:(独立)多组样本中位数差异(Kruskal-Wallis test),检验"三个糖果品牌的平均销售量是否有差异?"。

解析:

  • 此题可建立原假设为"三个糖果品牌的平均销售量无差异",即H0:m好吃牌= m干净牌= m快乐牌。
  • 建立数据文件上传,文件格式请参照上传文件说明。
  • 按照分析步骤说明分析数据。

分析结果:

  • 分析方法:(独立)多组样本秩和检验
  • 数据名称:范例A-4
  • 检验变量:_NEW_
  • 分组变量:_GROUP_(好吃牌, 干净牌, 快乐牌)
  • 显著水平:0.05
  • 计算时间:0.091秒
  • 样本描述统计量I:

14

I:样本描述统计量都不包含缺失值

  • 等级信息:

15

  • 多组样本秩和检验(独立样本)I:

16

I:分组变量为_GROUP_
II:显著性代码:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析结果建议:

由于检验结果P-值(0.051573) > 显著水平0.05,因此无法拒绝原假设。

本方法使用的R相关软件包与参考文献:
相关软件包:stats、base
参考文献:(按照软件包名称排序)

    1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
    2. Wilcoxon signed-rank test Wikipedia. URL:http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test
posted @ 2016-03-14 21:12  开心玩数据  阅读(9619)  评论(0编辑  收藏  举报