女士品茶 | The Lady Tasting Tea | 统计学史

The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 

本书只讨论了20世纪这100年间的统计大变革。

一般的书读读就行,唯独这本书需要慢慢品读,让统计的思想深入骨髓。

这本书不适合空读,而要结合自己对统计学的理解来读,遇到不懂的时候不要跳过,停下来仔细查阅相关资料,而后一旦理解了书中的总结,就很难忘记了。

 

需要做的事:

  • 深刻揣摩每段历史中核心的统计学问题;
  • 整理书中的天才们,出现的时间线,代表性的理论;
  • 书中重要理论思想内涵的总结

 

19世纪 - 机械师宇宙观 - 一切过程都是确定的

20世纪 - 统计模型 - 不确定性在真实世界里普遍存在

 

信息失真的灾难:

Association Tests - 这里面有女士品茶的实例描述,但是其语言之晦涩、表述之绕口,让我彻底无法了解费歇尔的女士品茶是怎么回事。

这个人的英文描述:Fisher gave her four pairs of cups of tea: one with milk poured first, the other after. The order was randomized. Say she picked 3 out 4 correctly, do we believe she has a special ability?

四对+茶,一个先加奶,其余后加奶;就这一句核心的失败性描述,导致后面统统无法理解。你TMD说8杯茶,4杯先加奶,4杯后加奶,会死吗?

后面更奇葩,"Guessed before","Guessed after",居然用这来描述结果,你怕不是语言文盲哦,MIT的小学生吧。

 

看下这篇文章,就知道表述能力有多重要了,果然还是现场教学好,就算信息传递者表述能力不行,还可以逼问:女士品茶的实验、假设和检验

有时候学不懂不是你的问题,可能是教的人自己也没搞懂,或者说不清楚!!!

人类的任何知识都不该是艰深的,使用正确的打开方式,没有什么是无法理解的。

 

天才大师们: 

Jacob Bernoulli (1655 – 1705) 伯努利

Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯

Sir Francis Galton (1822 – 1911) 高尔顿

Karl Pearson (1857 – 1936) 卡尔·皮尔逊 - C2 - 偏斜分布

Walter Frank Raphael Weldon (1860 – 1906)  威尔顿

William Sealy Gosset (13 June 1876 – 16 October 1937) “学生”

Sir Ronald Aylmer Fisher (1890 – 1962) 费歇尔 - C1 - 实验设计

Emil Julius Gumbel (1891-1966) - C6

Jerzy Neyman (1894 – 1981) 奈曼

Egon Sharpe Pearson (1895 – 1980) 埃贡·皮尔逊 老pearson的儿子

Edwin James George Pitman 1897-1993

William Edwards Deming (1900 – 1993) 戴明

Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6

Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯尔莫哥洛夫

Henry Berthold Mann (1905 – 2000)

Wassily Hoeffding (1914 – 1991) - C9 - U统计量

Donald Ransom Whitney (1915-2007)

John Wilder Tukey (1915 – 2000) 约翰·图

Irving John ("I. J.") Good (1916 – 2009)

George Edward Pelham Box (1919 – 2013)

Persi Warren Diaconis (1945-)

 

1 The Lady Tasting Tea 女士品茶

1.1 作者序

1.2 第一章 女士品茶 

1920年,Fisher就开始聊骚,开展女士品茶试验。

试验是检验真理的唯一标准,对统计也是如此。好的研究者要时刻对猜想和试验结果感到兴奋!

Fisher论述了如何开展科学的实验设计,引领了一场科学革命。

实验是人类增长知识的重要手段,这就是为什么我们这么多大学和研究所都在不停地做着各种花式实验。

一流的科学家从数据中发现新知识,二流的只是在积累数据。

Fisher是搞农业化肥数据分析起家的,发现现有的数据分析都是扯淡,里面包含了无法分开的confounder。

Fisher的科学实验设计方法很快席卷了所有科学实验领域。

注:

作者在辉瑞的经历和我惊人的吻合,需要处理很多疑难数学问题,还要负责讲解,让外行的合作者明白,同时要给出自己的结论。

作者的领悟:科研工作不可能独立完成,太容易犯错,需要多个同行从多方面检视,模型错误,假设错误,人为失误。学会提出问题,与专家讨论,大家一起检视问题,理解问题。

读Fisher的实验设计一书

William Harvey的血液循环路线的实验

Albert michelson的光速测定实验 - 需要一个高灵敏度的激光发射和检测工具,一面镜子。

Gregor mendel的豌豆杂交实验

现代高考的出题也是个实验设计的问题

1.3 第二章 偏斜分布

Laplace已经发明了误差函数(正态分布),他假设我们的观测值就是一个固定真值加上误差。但随着测量精度的提高,我们发现除去误差后,测量数据仍然不是固定的,测量的变量存在固有的随机性。

1890年,karl pearson开始确立了统计模型的本质。

高尔顿热爱研究亲子智商和身高的遗传规律,这个时候的他就开始想通过亲代的性状来预测子代的性状了,现在我们已经能够预测简单疾病了,但对复杂性状仍然无能为力(一个多世纪了)。

向平均回归的现象,regression to the mean:在遗传上,非常高的父亲,其孩子往往会比父亲矮一些。几乎所有的科学观察都在向平均回归。

向平均回归防止世界走向了极端,维持了世界的稳定。这也是为什么人群里无法出现大象和老鼠大小的人。

高尔顿最先发明了相关系数,但却是他的学生pearson完整规范的阐述了相关性。(不懂这里相关性和分布有什么关系)

观念革命:试验结果不是精准无误的测定,它包含了太多的不确定性。我们测量的数据永远是散布的,是有某种分布的,分布告诉我们单次的数值是无法预测的、随机的,但统计模型却能很好的描述这种随机的性质。

测量值本身,而不是测量误差,就具有一种正态分布。pearson提出了偏斜分布,其有四个参数。后来Neyman发现偏斜分布并不能包含所有的分布。

大自然基本上是随机的,真实性只存在于分布函数中。

个人想法:

什么是概率?我得病的概率是多少?万分之一。小概率事件意味着什么?

必须要溯源,否则说不清楚,概率来源于分布,分布说明了随机变量的散布性、不确定性。定义一个随机变量X,X可以取0或1,0为不得病,1为得病,收集1万人的数据,我们可以得到一个伯努利分布,P(X=1) = 0.0001. 不确定是指我们人类无法了解一个事件发生的所有原因,我们只能关注开头和结果。这里的开头是“你是人”,结尾是“你得病”。中间过于复杂的过程都被封装起来了。最终我们发现结果服从一个分布。

我们会说“明天下雨的概率”、“硬币朝上的概率”、“我生病的概率”,但我们不会说“宇宙发生大爆炸的概率”,首先,以我们的认知,宇宙处于一个特例中,无法重复,也没有发现的平行宇宙;其次我们不知道除了大爆炸还有什么可能的结果。

小概率事件:所有概率小于一个阈值,如0.05,的事件都为小概率事件。最科学的解释就是100次试验里,该事件只会发生5次。所以在一次试验里几乎就是不可能发生的。

假设检验的逻辑也是如此,我们假设小概率事件在一次实验里不会发生,我们接受了第一类错误率为0.05.

注:

皮尔逊的两个挚友过早离世,导致老皮尔逊走进了死胡同。

Charles Darwin是pearson同时代的,提出生物变异是适者生存的理论基础。

晚年的karl pearson仍然精力十足,但是对科学不再有重大贡献。

karl pearson首先读的是政治学,崇拜karl marx,所以把自己原来的carl改为karl。

pearson的第一部著作,《科学的法则》。

高尔顿发现了指纹现象。

Biometrika杂志诞生

pearson发明了拟合优度检验,goodness of fit test。

1.4 第三章 可爱的戈赛特先生

吉尼斯(世界纪录的那个)企业有意招聘具有化学背景的高材生,恰好招到了具有数学和化学背景的格赛特。科学问题是如何精准测量瓶中酵母的总量。

确切的数值不存在,存在的是单位液体内酵母数量的概率分布。格赛特成功的发现了泊松分布能很好的解决这个问题。

啤酒厂有保密要求,禁止职员泄露公司机密,格赛特开始在朋友皮尔逊底下进修,开始以“学生”身份发表文章。费歇尔是三人中数学造诣最高的。

“学生”的t检验,小样本问题,做生物实验更是如此,极少情况下我们可以获得大样本。皮尔逊执着于拿到大样本,来估计自己偏斜分布中的四个参数。

格赛特则致力于解决如何衡量小样本中的随机误差,发现了小样本的均值和标准差之比的规律,偏斜分布的前两个参数的比具有一定的规律。

t检验对数据没有假设,数据可以服从任何分布。

注:

老皮尔逊和费歇尔之间有着互相的偏见,而格赛特则负责调解。

1.5 第四章 在垃圾堆中寻觅

时间线回到1919年,开始讲Fisher的故事,Fisher太nb,不得不从其出生开始讲起。

Fisher从小就与人不同,孤单多病,却具有很高的几何天赋,数理统计的直觉,别人需要证明很久的东西在他眼里就是直觉。

Fisher虽是剑桥最突出的高材生,但工作也是一波三折,也算经历了第一次世界大战。

Fisher和老pearson之间的恩怨情仇。

老pearson属于典型的自私固执型的大佬,凭借自己的学术地位来打压、压榨年轻的天才。在每个单位里都存在这种大佬,一心为了自己的名利,但是他们显然快要灯枯油尽了(年龄和灵感),所以不得不靠榨取年轻的精灵来苟且维生,这也是符合自然界规律的。

Fisher数学功底深厚,他支持和推崇优生学说(有选择的改变人类的基因库),所以被指责为法西斯。(有相关的电影了,讽刺最终人类总体变得低智)

(其实错了,自然选择留下的都是最适合生存的人,只能说智商与生存能力有一点的相关性,两者并不等同)

pearson钟情于社会主义,Fisher则更加关注遗传学,开始研究mendel的理论和数据。

孟德尔和Fisher这个时代的人已经慢慢意识到,生物体内存在控制生命性质的基因,统计概率理论可以用于描述生物体内基因与表型互作的不确定性。

Fisher一大著作:《研究工作者的统计方法》工具书,书中省去了复杂数学理论,着重阐述了统计的应用,所以很快就流行起来了。(名言:文章中每多一个公式,读者数量就减半,数学门槛还是很高的)

自此,Fisher带着全家和小姨子开始了在农业站的练级之旅。。。

1.6 第五章 收成变动研究

Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。数据挖掘的鼻祖,真正地从数据中发现知识。

“开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将他们应用到其他领域”

variance和variation的区别?前者特指方差,后者词性更general,表示变动;还有一个variant,特指变异。

<contributions to mathematical statistics> - john wiley

全能的Fisher,不仅要做体力的计算工作,还要思考数学问题,整理数据,设计分析框架,修正不可避免的错误。

高尔顿回归思想的一般化,微积分基础,概率分布,多维几何学。

变异的拆分,时间序列分析的起源。

随机化控制实验,无法控制的肥力梯度效应可以用随机化抵消。

方差分析问世:在精心设计的科学实验中,如何分解各种不同处理的效应?

协方差分析问世:因素分解

自由度的引入:调和不同作者观测到的差异结果。几何洞察力、多维几何空间。指出了老pearson的一个错误。

注:

1. 要深刻理解正态分布,以及其衍生而来卡方分布(独立正态分布的平方和)、t分布(小样本的z分布)、F分布(两个卡方发布之比)。

2. 方差分析的核心,变异分解,总方差=组内方差+组间方差,假设随机误差服从正态分布,因为是多个样本,所以要检验的是两个卡方分布之比。

3. 协方差分析的核心,回归和方差分析,利用回归的方法去掉潜在confounder的影响。

1.7 第六章 百年一遇的大洪水

极值的分布,如何预测罕见洪灾的洪峰的高度?本章的蒂皮特解决了这个难题。

我们人类喜欢精确,我们天生厌恶不确定性,可是我们必须接受不确定性,因为我们是观察者和改造者,不是缔造者。

如何预测纺线的强度?因为是线性的,所以棉线的强度取决于棉线中最脆弱的纤维的强度。

为了解决这个问题,蒂皮特开始在皮尔逊底下进修。可以看出蒂皮特高度评价了皮尔逊。(看问题不能只从一个角度)

蒂皮特找到了样本的数据分布与极值分布的关系,却不知如何解出该方程,所以去请教了Fisher,得到了“蒂皮特的三条极值渐进线”。

冈贝尔的极值统计学,本文作者高度评价了这本书。

1.8 第七章 fisher 的胜利

Fisher和pearson的统计哲学观的分歧和较量。

在顶级期刊上发表论文很难,但更难的是受邀去知名大会上做学术汇报,因为大家会预习你的成果,所以在讨论时会非常详尽,且一针见血。

真正精华的科学研究都是在这种讨论会中形成和接受检验的。

“对他带给统计学研究的无与伦比的热忱,对他提出的数学工具的威力”。

老pearson、小pearson、Fisher、奈曼,相互之间的关系。

统计哲学观的分歧:

老pearson:统计分布是分析数据的真实描述;

Fisher:真实分布是抽象的数学公式,收集的数据只能用于估计其参数。我理解的就是pearson就是想收集数据,然后算他的偏斜分布。而Fisher则认为真实的分布是无法通过观测数据来直接得知的,必须考虑到数据获取过程中的随机性。所以Fisher更强调“估计”,pearson则没有,认为可以直接计算。

测量值的随机性是真实存在的,为了区分开参数的估计值和参数本身,我们把估计值叫做统计量,统计量具有随机性。

好的统计量必须具有三个特性:一致性、无偏性和有效性。

Fisher的极大似然法,为了得到一致且有效的统计量,Fisher发明了MLE。数学上的完备性。

迭代算法,试位法。EM算法,模拟退火算法。。。

Fisher和奈曼之间的恩怨。

1.9 第八章 致死剂量

生物统计学会,选地、汇报讨论、约饭、交友。

一个研究杀虫剂的基友,遇到了困难,于是去读Fisher的著作,必须从应用工具和数学原理这两个角度来研究Fisher的思想。

概率单位分析,杀虫剂的有趣观察,如何从数学和统计的角度思考问题,并把日常语言转化为数学统计语言,这才是最难,也是最重要的!!!

probit,杀虫剂剂量和虫子死掉的概率,两者之间的关系。半数致死剂量。对一只虫子,我们不可能得到能杀死它的剂量,对一群虫子,我们也得不到杀死它们全部的剂量。

无法估计代表我们做不到,我们人类永远只能做我们能做的,因为受限,就像死亡一样。

动乱时代下的统计学家,到底是安稳还是动乱更能成就伟人?时势造英雄!


1.10 第九章 钟型曲线

为什么说英国是统计革命的发源地?

中心极限定理的重要性!

正态分布所具有的优良特性使得其逐渐成为了统计分布的大哥。

如何证明中心极限定理?

林德伯格·利伟条件和U统计量,渐进正态分布的一组统计量。

运筹学,用数学模型和科学思维来解决问题。

1.11 第十章 拟合优度检验

混沌理论,蝴蝶效应。

皮尔逊的拟合优度检验,可以用于检验两个变量之间有无显著性关系。

假设检验

奈曼的散播分布

1.12 第十一章 假设检验

假设检验的效力power的重要性。

概率的现实意义。

1.13 第十二章 置信诡计


1.14 第十三章 贝叶斯异论

 

1.15 第十四章 数学界的莫扎特

 

1.16 第十五章 小人物之见解

 

1.17 第十六章 非参数方法

 

1.18 第十七章 当部分优于总体时 :随机分布


1.19 第十八章 吸烟引发肺癌吗?


1.20 第十九章 如果您需要最佳人选。。。。

 

1.21 第二十章 朴实的德克萨斯农家小伙

 

1.22 第二十一章 家庭中的天才

 

1.23 第二十二章 统计学界的毕加索


1.24 第二十三章 处理有瑕疵的数据 稳健性


1.25 第二十四章 重塑产业的人 : 戴明与质量管理


1.26 第二十五章 黑衣女士的忠告


1.27 第二十六章 鞅的发展


1.28 第二十七章 意向治疗法


1.29 第二十八章 电脑随心所欲


1.30 第二十九章 泥菩萨


1.31 误称定律
1.32 卡尔达诺

 

 

待续~

 

posted @ 2019-05-27 23:10  Life·Intelligence  阅读(2716)  评论(0编辑  收藏  举报
TOP