统计学 David Freedman

第一章

1. 研究试验

也叫前瞻性研究。可以证明因果关系，试验设计会控制混杂变量。

1.1 随机双盲/随机随机试验

把混杂因素尽可能均分在各个实验组，每个组在基线时，变异一致。尽量让研究干预成为唯一的影响因素。

也就是在零假设下，只存在抽样误差，而基线时每个组中变异基本相同，进而计算得到这种样本的概率，从而推翻原假设。

1.2 变异的变化

称为分布。就是变异的规律

2. 观测试验

也叫回顾性研究。只能证明相关关系，不能证明因果关系，因为混杂因素不可控。例如定期体检可能是良好教育和收入的表征，定期锻炼是健康的表征，等等。

一些混杂因素在一开始就影响了谁是试验组，谁是对照组。

3.

比例、数量比较时，考虑总量。

由部分推断整体时，注意各个subgroup构成比

在观察试验、非随机对照试验中注意受试者是如何被分组的。进而考虑组之间的可比性。有什么混杂因素，如何消除混杂因素。

第二章描述性统计

1. 直方图用面积而不是高度描述数据。不需要Y轴。高度表示拥挤程度(每单位数量多)，面积表示数目。像北京和中国。

2. 平均数使分布保持平衡的点，中位数是使两边面积相等。

3. 均方根RMS比平均数稍大些。

4. 标准单位是偏离平均数多少个标准差。

5. Z分数就是偏离平均数多少个标准差。对应的面积就是百分数，某个点之上或之下就是百分位数。

6. 随机误差的作用方向随机，可能正向可能负。系统误差是作用方向不变。重复测量衡量随机误差。

第二章相关和回归

1. 散点图：数据越分散，相关关系越弱。一个弱相关关系基本没啥意义。

2. 相关系数：

只是直线相关，信息量不如散点图丰富。

X和Y转换为标准单位：以SD为单位，度量数据偏离平均数的程度，

相关系数就是其积的平均值。其积，采用乘积的形式，一是反应偏离大小，而是反应偏离方向。

相关系数就是其积的平均值，值越大，说明偏离方向越一致。r越大，数据分布越聚集。

相关系数是按相对SD的值度量，而不是绝对值度量。因此r相同，但可能一个SD大，一个SD小。（两个r相同group，合到一起，r还是不变）

上述公式转换：

SD是反应离散程度，越大越分散；

Cov是两个变量的离散程度。一是反应偏离大小，而是反应偏离方向。

例子：

五个城市的吸烟率和死亡率强正相关。

错误：五个城市只有五个数据点，SD变了。应该用每个人的数据。可直接计算个人吸烟时长和寿命。

posted @ 2022-11-12 17:08 Iving 阅读(381) 评论(0) 收藏举报

刷新页面返回顶部

Iving