空间统计之八:平均中心和中位数中心
本来应该分成两篇来写的。可是这两种中心的算法和应用都非常接近,所以就合并成一篇文章来写了。
昨天讲了中心要素,由于中心要素是要从原来的要素中去选择一个已有的,所以算出来的,与我们观念和感知中的“中心”这个概念,还是差距非常大,所以今天来讲讲这两种中心的计算方式和应用范围。
我们来看看三者之间的不同,例如以下图:
能够看到。计算出来的结果各有不同,首先中心要素我们就不说了。大家有兴趣能够去看看昨天的文章。然后今天要说的中位数中心和算数平均中心,也不是一样的,那么他们分别代表什么样的含义呢?
首先。看看最符合我们感知的整份数据的中心位置是哪个?毋庸置疑,绿色的算数平均中心肯定是最符合我们感官中的中心位置了。从名字上来看,就非常easy理解这个“算数平均中心”是怎样得来的。
算数平均。从统计学上来说,是描写叙述数据集中位置的一个统计量,能够用它来反映一组数据的普通情况、和平均水平,也能够用它进行不同组数据的比較,以看出组与组之间的区别。
它的计算方法非常easy,就是把全部的值都加起来。然后除以他们的个数,就得到了这个平均值。
所以按正常情况。这个平均值大多数都不会恰好等于你数据中的某一个值(当然,也有等于某个值的),所以算数平均中心,也会生成一个新的点。
算数平均中心的计算方法也非常easy,和全部的空间相关理论都能够直接抛开。直接进行算数计算,这个生成的点的x坐标和y坐标,就是全部点的x坐标和y坐标的平均值。公式例如以下:
看以下的计算实例:
是不是很easy?仅仅要有小学2年级的水平,就行计算出来了,当然。假设每个点上面还有权重的话,也可以一并增加计算,公式例如以下:
假设,你是一个三维的点。也就说还有z值的话,也一并增加计算。算法是一样的:
接下去,我们来看看中位数中心。中位数中心和昨天所说的中心要素非常像,就是去寻找一个可以均分全部数据为两部分的数,这个数到全部的位置的距离总和最少。
可是,中位数中心和中心要素,最大的不同点在于:中心要素计算出来的结果,必须是要素样本的中的一个原始样本;而中位数中心计算出来的。能够不是原始要素中的一个,能够生成一个新的位置。
可是相对于中心要素的计算,中位数中心的计算方法就复杂非常多了。
由于中位数中心没有既定的位置给你。也就是说没有起算点。假设没有起算点。那么理论上就有无数个点能够作为起算点。然后依据遍历的法则。一个个的去计算,去排序,这样系统的开销会变得无限的大。
只是这个世界算有一群非常聪(bian)明(tai)的天才。他们有个共同的名字。叫做数学家……在1962年,美国著名数学家,普林斯顿大学的哈罗德.威廉.库恩(一位天才的数学家和计算机理论学家,以前获得1980年的约翰·冯·诺依曼理论奖)和罗伯特.E.库伦(Kuhn, H. W., and R. E. Kuenne) 两位首次提出。
而且在1996年,被美国纽约吉尔福德学院地理学家詹姆斯.E.伯特和杰拉尔德.M.巴伯(Burt, J. E., and G. Barber.)总结归纳,得出了一种优化算法。
这个算法说起来还是比較easy理解的,就是寻找一个候选中位数中心。然后对其进行优化,直到其表示的位置距数据集中的全部要素(或全部加权要素)的距离最小。
这个算法的详细描写叙述,请參考书籍:《Burt,J. E., and G. Barber. (1996).Elementary statistics for geographers.Guilford,New York.》(挖个坑,以后有机会来填。今天就不多说了)
当然,要注意的。尽管我们使用ArcGIS提供的工具,仅仅返回一个点,可是确实有可能,距全部要素的距离最小的位置点(解),会出现有多个。
这两种和中心有关的计算结果,都是表达了对中心趋势的度量情况。可是他们之间也有不同的,那么详细有哪些思想和应用上的不同。继续往下看。
我们都知道,平均值受到极值的影响非常大,把比尔盖茨和9个身无分文的乞丐。塞到一个房间里面。假设算平均数的话,能够说这个房间里面所有都是亿万富豪了。所以非常多时候。我们常常饱受“平均”之苦。比方每次都是工资平均增长多。住房面积平均达到多少……每次遇上这样的情况,我都会严重的怀疑是我严重扯了国家的后腿还是计算的时候。就压根没把我计算进去呢?
所以算数平均中心也会对极值很敏感。例如以下:
增加极值之后,算数平均值会出现明显的向极值的方向移动。然后我们再来计算一下中位数中心,例如以下:
能够发现,就算增加了极值之后,中位数中心的位移没有算数平均中心位移那么大,就说明了,中位数中心,对极值(异常值)的敏感程度要低于算数平均中心。所以:中位数中心是一种对异常值反应较为稳健的中心趋势的量度。
假设我们须要一个对于空间异常值反应比較稳健的中心趋势的量度值,就能够考虑使用中位数中心。
就像计算火灾发生位置的研究中。我们不希望少数外围火灾使得实际的中心位置远离火灾核心区这种一种场景,就能够使用该工具计算火灾区的“中位数中心”。
平均中心和中位数中心,都是空间统计中经经常使用到的工具。它们在研究某一时间的位置运动时候有广泛的应用。
比如:在犯罪分析的研究中。犯罪事件的位置可能遍布整个城区,我们就能够依照不同的时间。对当中一个区间内的数据进行中心点提取。这样就能够有效的了解,整个犯罪事件的位置是否发生趋势性的转移。
或者在对动物迁徙的研究中。能够计算某个区域若干年内的动物(如麋鹿)观測值的平均中心。来确定在不同一时候间段内。麋鹿会在何处聚集,从而为游客或者研究人员提供更好的信息。