弱水三千 之 统计学二三事儿
你从哪里来?我的朋友~
统计学是以数据为对象的一门学科。可以把其归为形式科学(Formal Science,如数学、逻辑学、系统论),因为它的研究领域是抽象的形式(abstract structures)。另外有一些人认为它应该归为自然科学或社会科学,因为它研究了自然科学的问题或者社会领域的问题。
统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据的科学就够了。
可证伪性是卡尔·波普尔的理论,也是从20世纪以来最流行的科学哲学理论。因为科学理论是建立在“观察现象-提出理论-进行实验-修改理论”的科学方法之上,所以可证伪性成为一个理论是不是科学理论的必要条件。比如“神爱众人”,这个理论不可能检验,因为没法观察到“神”,也没法定义什么才是“神”的“爱”。但另一些建立在观察基础上的推断,比如“摩擦力导致运动着的小球停止,摩擦力越大,运行距离越短”,则是完全可以证伪的。这就是伽利略开创的科学方法,经由这套方法发展出来的理论才是科学理论:并不是说凡是可被证伪的理论都是科学理论,但是科学理论一定要具备可以被实验推翻的可能性。
一路走来 几多风雨
- 统计方法可以追溯到很早,几乎在计数方法被发明的时候就有了原始的统计方法。
- 到了16世纪,由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。
- 统计方法发展成为现代(数理)统计学,则是更近的事。17、18世纪的数学家继续发展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes,他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。
不得不提到的一个巨人是Karl Pearson。没错,就是Pearson test 那个Pearson,他还很任性地用姓氏首字母命名了一个折磨了统计系学生们一百年的变量—— p value。除此之外,他在统计理论的各个方面都有创新,最重要的是,他创建了世界上第一个统计系。他被公认为是现代(数理)统计学的创建者,也是我们生物统计的创建者(第一个生物统计学期刊就是他开的)。其实能者是无所不能的,此君在业余还取得了大律师资格,还是一个坚定的基因改良主义者,要知道那时才是1890s!下面这幅图是Pearson的老婆为他的学术著作画的插页,主题是:Chance of death。从左到右意思是人从出生到老要经历不同的死亡风险。不知道为什么采用桥这个元素,有可能是听过奈何桥的传说??
- Pearson之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了。在这之后,比较大的变化是贝叶斯主义的兴盛。1950s,统计学家内部还是一边倒地偏向frequentist。不过城堡都是从内部被攻破的。当时Irving Good还跟同事打了赌,他预测贝叶斯理论将成为统计思想的主流,同事则坚信频率主义。后来事实的发展支持了频率派 。
在贝叶斯主义之前,使用prior knowledge是不规范的。你必须比较确切地知道某个随机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴,根据一些prior knowledge,直接给概率赋值。看似武断,其实大大拓展了统计学的发展和应用空间。因为建筑在各种prior knowledge基础上的统计推断,天然具备了可证伪性,比如我们前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五分钟即可。如果起飞了,说明我们的推断是还算准确的,如果没起飞,说明我们用的prior有问题,要修改它的值,然后再做下一次的统计推断。如果是frequentist,他会搭好观察台,在机场长期观察各类型飞机的起飞时间和架次,统计出来比较精确的频率,然后再做推断。这个时候人家Bayesian早迎娶白富美走上人生巅峰了!
你可以把贝叶斯主义看做“尺蠖式”前进:往前两步再后退一步,后退是没有问题的,马老师说过这叫“螺旋式上升”,毛老师说过撤退就是转进嘛!关键是要行动:大量应用prior knowledge和贝叶斯定理,做出推断,然后再根据观察去修正prior knowledge。
现在过得怎么样?我的朋友~
统计学可以这样划分:理论统计学和应用统计学。
- 统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。现在又包括了computational statistics。Computational statistics发展了bootstrapping、Monte Carlo simulation这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量太大了(不太确定computational statistics是否应该放在理论统计学里,不过这个不重要)。
- 应用统计学基本分为两大块:descriptive statistics 和 inferential statistics。前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。
descriptive statistics: population ---> sample
inferential statistics: sample ---> population
从population到sample,这个是以使用概率论为主。不过descriptive statistics本身并不发展新的理论知识。从sample到population,这个才是应用统计学的重要目的。因为统计学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做出估计。
随着计算机的应用,目前包括以下分支:
- 理论研究
概率论(比如stochastic process),计算统计理论(比如asymptotic theory,在CS系的computational theory下面)当然应该包括很多我听也没听过的理论知识(搞应用的伤不起。。。),这里就没法列举了。 - 统计模型
在前人基础上继续发展各种regression model,stratification,clustering,blocking,classification等等、各种test的发展,比如time series,likelihood ratio test, Wald test, permutation test 等等。 - 计算统计方法的发展
比如Monte Carlo simulation,Bootstrap - 数据采集
census,survey和clinical trial等 - 生物统计
比如longitudinal analysis, spatial analysis - Machine Learning
- Data Mining
你 究竟身在何处
统计领域的top journal包括:
- Journal of American Statistical Association (JASA )
- Biometrika (Bka )
- Journal of Royal Statistical Society (Series B, and Series A) (JRSB, JRSA)
- The American Statistician (AmSt )
- Survey Methodology (SrvM )
- Annals of Statistics (AoS )
- Journal of Official Statistics (JOS )
- Biometrics (Bcs )
- International Statistical Review (ISR )
- 另外还有计量经济学领域的Econometrica也是统计学家们会去投的top journal。