【数理统计基础】 01 - 关于预测的方法学
【本系列目录】
博客总目录
相信很多人和我一样,曾经把数学定义成精美的公式和巧妙的思维。这些特性也正是数学能吸引很多爱好者的原因,能欣赏其美妙者自然是爱得不行,但同时也在大众心里形成了“困难”和“无用”的刻板印象。在现实中,数学一直在强力推动着科学文明的进步,业内人应当知道,公式不是凭空产生的,思维也不是仅供玩味的。然而过去,对于普通人或一般工科从业者来说,即使知道数学的重要性,也只需要学会使用现成的工具即可。然而现在的情况正在发生变化,人们面对的问题越来越复杂,纵使拥有强大的工具,也不知道如何正确地去使用。
随着持续的学习,我对数学的认识在发生变化,虽然不见得正确,但确实是更真切的体验。数学更本质的意义是对问题的抽象,抽象的过程中会有所偏重,它不一定能精确描述整个问题,但一定要精确描述模型本身。数学讨论的内容是非常宽泛的,只要能抽象出合适的模型,都可能建立起有价值的理论。模型的对象甚至不一定是确定性现象,“随机性”“可能性”本身也能成为模型的对象,这就是我们前面学习的概率论。
开篇说这些废话,是想表明两个观点。第一个是数学的本质是抽象,这件事人人都可以做、人人也必需做,它是人类思维的基本方法,差别只在于深浅不同。数学不光有美丽和巧妙,它的出发点和着力点还是应用,锻炼抽象思维,在生活中会处处受益。第二个是数学的局限性,模型建立起来之后,数学只负责挖掘其本身的价值,它不一定能解决或者适合解决你的所有问题。使用者要学会选择模型,而在此之前首先要对问题进行抽象,这一步的难度对于使用者是至关重要的。还有就是在应用场合下,也需要根据实际需求去看待数学结论,人的主动性在整个过程中都非常重要。
前面我们看到,概率论是研究随机事件的模型,它对不确定性做了很好的度量。但随机问题有很多种提法,合适地利用概率论仍然是件困难的事,对于具体问题可能还要建立更高层次的模型。比如随机过程和数理统计,它们都可以以概率论为基础,同时还有自身的特点,需要对问题做合适的抽象。概率论可以说是存粹的分析学分支,而数理统计则是对概率模型的应用。完整的统计学包含更多的内容,甚至离开概率论也能进行一些理论研究,但有些场合的确需要一个好的概率模型,基于概率论的统计学便叫做数理统计。这提醒我们,解决统计问题,还是要根据侧重点选择最合适的工具,概率论只是其中一个工具而已。后面还会看到,对于同一个问题,概率论都可以有截然不同的使用方法,而选择权完全在应用者手里。
统计这件事是在人类文明之初就有的,在相当长的一段时间里,它以数据的收集和简单的分析为主。在这个漫长的过程中,人们掌握了各种方法、积累了许多经验,但是并没有形成系统的理论。在概率论日趋成熟的18、19世纪,很多重要的统计推断方法被提出,其中包括贝叶斯的统计推断法、还有高尔顿的回归方法。高斯在天文观测的误差研究中,提出了正态分布和最小二乘法,后来在其它领域得到了广泛的应用。
统计学真正的高速发展期,一直要到20世纪。初期是以费歇尔和皮尔逊为典型代表的英国学派,其中费歇尔的研究最为广泛和深刻,虽然他以生物学作为研究场景,但却提出了诸多通用的数理统计方法,并形成了很多重要的思想和结论。到了20世纪中叶,数理统计的思想方法已经非常丰富和成熟,克拉美的《统计数学方法》更是标志着数理统计作为一个独立数学学科的成立。二战之后,随着经济和科学的发展,数理统计在更广阔的范围得以应用,尤其是计算机的使用,更快速的计算大大降低了理论的使用障碍。同时学科的理论也得到了极大的丰富和发展,其中瓦尔德的统计决策理论更是为数理统计建立了清晰统一的数学模型。另外,贝叶斯思想在20世纪后半叶又重新发展起来,尤其是与决策论相结合的贝叶斯决策,成为了决策领域最为一般而有效的方法。
R.A. Fisher(1890-1962) W. Abrahom(1902~1950)
以上只是粗线条地回顾了数理统计的发展历史,更详细的介绍请参考材料[5]。不过大概我们需要知道,数理统计是一门应用数学,它从概率论出发,以统计推断为目标,过程中会提出大量的现实问题和理论需求,但都是以数学方法为解决途径。数理统计既有很强性理论性需要挖掘,也有庞杂的具体应用场景需要讨论,因此需要理论和实践的共同作用。目前我只有精力学习一些最基础的概念和方法,希望以后有时间能补充完“高等数理统计”和“应用数理统计”。
【前序学科】 初等概率论,线性代数
【参考资料】
[1] 《概率论与数理统计》,陈希孺,2009
[2] 《数理统计学教程》,陈希孺,2009
[3] 《高等数理统计学》,陈希孺,1996
[4] 《统计学概貌》,陈希孺,1989
[5] 《数理统计学简史》,陈希孺,2002
我认为想入门数理统计,陈院士的这套书是非常好的选择。它最重要是可以帮你建立起正确的思想,而不是概念和公式的堆砌。作者比较强调对原问题的分析,以及对数学结论的合理解释,整套书都极富启发性,其中的文字部分请认真阅读思考。
[6] 《数理统计(4th)》,师义民,2015
比较成熟的一本基础教材,涵盖核心课题并作了适当拓展。有详细的证明过程和丰富的例题,比一般经济类教材更加严谨,适合理工专业使用。
[7] 《应用数理统计(3rd)》,孙荣恒,2014
覆盖比较全的数理统计基础概念和结论,算是一本不错的理论参考书。其实并没有偏向应用场景讲解,重心还是放在了理论知识的梳理上。