统计学 David Freedman

第一章

1. 研究试验

也叫前瞻性研究。可以证明因果关系,试验设计会控制混杂变量。

1.1 随机双盲/随机随机试验

把混杂因素尽可能均分在各个实验组,每个组在基线时,变异一致。尽量让研究干预成为唯一的影响因素。

也就是在零假设下,只存在抽样误差,而基线时每个组中变异基本相同,进而计算得到这种样本的概率,从而推翻原假设。

1.2 变异的变化

称为分布。就是变异的规律

2. 观测试验

也叫回顾性研究。只能证明相关关系,不能证明因果关系,因为混杂因素不可控。例如定期体检可能是良好教育和收入的表征,定期锻炼是健康的表征,等等。

一些混杂因素在一开始就影响了谁是试验组,谁是对照组。

3.

比例、数量比较时,考虑总量。

由部分推断整体时,注意各个subgroup构成比

在观察试验、非随机对照试验中注意受试者是如何被分组的。进而考虑组之间的可比性。有什么混杂因素,如何消除混杂因素。

第二章 描述性统计

1. 直方图用面积而不是高度描述数据。不需要Y轴。高度表示拥挤程度(每单位数量多),面积表示数目。像北京和中国。

2. 平均数使分布保持平衡的点,中位数是使两边面积相等。

3. 均方根RMS比平均数稍大些。

4. 标准单位是偏离平均数多少个标准差。

5. Z分数就是偏离平均数多少个标准差。对应的面积就是百分数,某个点之上或之下就是百分位数。

6. 随机误差的作用方向随机,可能正向可能负。系统误差是作用方向不变。重复测量衡量随机误差。

第二章 相关和回归

1. 散点图:数据越分散,相关关系越弱。一个弱相关关系基本没啥意义。

2. 相关系数:

只是直线相关,信息量不如散点图丰富。

X和Y转换为标准单位:以SD为单位,度量数据偏离平均数的程度,

相关系数就是其积的平均值。其积,采用乘积的形式,一是反应偏离大小,而是反应偏离方向。

 相关系数就是其积的平均值,值越大,说明偏离方向越一致。r越大,数据分布越聚集。

相关系数是按相对SD的值度量,而不是绝对值度量。因此r相同,但可能一个SD大,一个SD小。(两个r相同group,合到一起,r还是不变)

 上述公式转换:

 

SD是反应离散程度,越大越分散;

Cov是两个变量的离散程度。一是反应偏离大小,而是反应偏离方向。

 例子:

五个城市的吸烟率和死亡率强正相关。

错误:五个城市只有五个数据点,SD变了。应该用每个人的数据。可直接计算个人吸烟时长和寿命。

posted @ 2022-11-12 17:08  Iving  阅读(261)  评论(0编辑  收藏  举报