空间统计笔记之一(基础知识)
前段时间在学习空间统计相关的知识,于是把ArcGIS里Spatial Statistics工具箱里的工具好好研究了一遍,同时也整理了一些笔记上传分享。这一篇先聊一些基础概念,工具介绍篇随后上传。
空间统计研究起步于上个世纪70年代,空间统计其核心就是认识与地理位置相关的数据间的空间依赖、空间关联等关系,通过空间位置建立数据间的统计关系。空间统计学依赖于tablor地理学第一定律,即空间上越临近的事物拥有越强的相似程度;和空间异质性,即空间位置差异造成的行为不确定现象。例如要度量犯罪率与教育程度的关系,不同地区 (文教区、贫困区)可能不一样。
利用GIS进行空间统计分析最早可追溯到1854年的伦敦大霍乱(黑死病)。当时盛行的理论是“空气传染”,而不是现在的病菌传染。John Snow 医生开始也相信空气传染学说,但证据使他不得不转向病菌学说。他通过观察霍乱病例在空间上分布的特征,找到了其空间上聚集的地方,进一步找到了致病的水井。利用空间统计可帮助我们发现、判断并证实事物在空间上分布的规律和特征,从而对研究进行辅助决策。
几个空间统计基本概念
- 自相关指数
Moran指数和Geary系数是两个用来度量空间自相关的全局指标。Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度,Geary 系数与Moran指数存在负相关关系。
Moran指数I的取值一般在[-1,1]之间,小于0表示负相关,等于0表示不相关,大于0表示正相关;
Geary系数C的取值一般在[0,2]之间,大于1表示负相关,等于1表示不相关,而小于1表示正相关;
- 回归分析
回归分析(regression analysis)是确定两个或多个变量间相互依赖的定量关系的一种统计分析方法。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
- 欧几里得距离&曼哈顿距离
欧几里得距离即两点之间平面直线距离,如果两点的坐标分别为(x1,y1)和(x2,y2),则欧几里得距离计算公式为:
而曼哈顿距离又称为出租车距离,就是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和,计算公式为:
Distance=|x1-x2|+|y1-y2|
- 空间权重矩阵
通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系,其形式如下:
Wij表示区域i与j的临近关系,它可以根据邻接标准或距离标准来度量。
常用的最简单简单的二进制邻接矩阵
常用的基于距离的二进制空间权重矩阵
- Z Score和P值
很多空间统计里的工具都会返回Z分数和P值,P值是统计学中所谓犯“第一类错误”的可能性,指零假设正确,而我们错误的拒绝了零假设的可能性。Z分数也代表拒绝零假设的可能性,也就是说,如果P值越小,Z分数的绝对值越大,就可以越放心的拒绝零假设。