统计学 David Freedman
第一章
1. 研究试验
也叫前瞻性研究。可以证明因果关系,试验设计会控制混杂变量。
1.1 随机双盲/随机随机试验
把混杂因素尽可能均分在各个实验组,每个组在基线时,变异一致。尽量让研究干预成为唯一的影响因素。
也就是在零假设下,只存在抽样误差,而基线时每个组中变异基本相同,进而计算得到这种样本的概率,从而推翻原假设。
1.2 变异的变化
称为分布。就是变异的规律
2. 观测试验
也叫回顾性研究。只能证明相关关系,不能证明因果关系,因为混杂因素不可控。例如定期体检可能是良好教育和收入的表征,定期锻炼是健康的表征,等等。
一些混杂因素在一开始就影响了谁是试验组,谁是对照组。
3.
比例、数量比较时,考虑总量。
由部分推断整体时,注意各个subgroup构成比
在观察试验、非随机对照试验中注意受试者是如何被分组的。进而考虑组之间的可比性。有什么混杂因素,如何消除混杂因素。
第二章 描述性统计
1. 直方图用面积而不是高度描述数据。不需要Y轴。高度表示拥挤程度(每单位数量多),面积表示数目。像北京和中国。
2. 平均数使分布保持平衡的点,中位数是使两边面积相等。
3. 均方根RMS比平均数稍大些。
4. 标准单位是偏离平均数多少个标准差。
5. Z分数就是偏离平均数多少个标准差。对应的面积就是百分数,某个点之上或之下就是百分位数。
6. 随机误差的作用方向随机,可能正向可能负。系统误差是作用方向不变。重复测量衡量随机误差。
第二章 相关和回归
1. 散点图:数据越分散,相关关系越弱。一个弱相关关系基本没啥意义。
2. 相关系数:
只是直线相关,信息量不如散点图丰富。
X和Y转换为标准单位:以SD为单位,度量数据偏离平均数的程度,
相关系数就是其积的平均值。其积,采用乘积的形式,一是反应偏离大小,而是反应偏离方向。
相关系数就是其积的平均值,值越大,说明偏离方向越一致。r越大,数据分布越聚集。
相关系数是按相对SD的值度量,而不是绝对值度量。因此r相同,但可能一个SD大,一个SD小。(两个r相同group,合到一起,r还是不变)
上述公式转换:
SD是反应离散程度,越大越分散;
Cov是两个变量的离散程度。一是反应偏离大小,而是反应偏离方向。
例子:
五个城市的吸烟率和死亡率强正相关。
错误:五个城市只有五个数据点,SD变了。应该用每个人的数据。可直接计算个人吸烟时长和寿命。
本文来自博客园,作者:Iving,转载请注明原文链接:https://www.cnblogs.com/SAS-T/p/16756993.html