Chapter 10 Random Variability
目录
在之前, 一直假设样本数量足够大, 从而没有随机因素的影响(即把以个体看成一亿或者更多个体的集合).
但是这种假设在实际中显然是不合理的, 往往我们只有少量的数据.
10.1 Identification versus estimation
即使样本很多的一致性estimator也有可能离其正确的值相差很远.
另外, 这一节还提了提Wald confidence.
似乎用的就是一般的大样本的区间估计, 就是:
\[\frac{\bar{X} - \mu}{\sigma} \sim \mathcal{N} (0, 1).
\]
对于伯努利的情况,
\[\mu = p, \sigma = \sqrt{\frac{p(1-p)}{n}}.
\]
10.2 Estimation of causal effects
10.3 The myth of the super-population
在我们估计类似上面讲的置信区间的时候,
randomness 有两个来源:
- 本章将的采样的随机性;
- 来自于不确定的conterfactuals.
实际上, 我们能这么估计置信区间的原因是, 这些样本的确来源于一个binomial分布.
但是实际上, 有可能是每一个样本有一个独立的概率分布\(p_i\), 然后我们最后所观测到的\(p\)是一个均值而已(好浮夸).
10.4 The conditionality "principle"
\[\mathrm{Var} (\bar{X}_1 - \bar{X}_2)=
\mathrm{Var} (\bar{X}_1) +
\mathrm{Var} (\bar{X}_2).
\]
在confounders并不多的时候, 选择adjust for这些confounders是一个不错的主意.
The curse of dimensionality
Fine Point
Honest confidence intervals
uniform, honest: 存在一个样本数量n, 能够确保95%置信区间在95%的实验中发生.
Uncertainty from systematic bias
除了采样的误差, 置信区间的随机性也有可能是confounding, selection, measurement这些系统偏置带来的.
Technical Point
Bias and consistency in statistical inference
consistent estimator:
\[\mathrm{Pr}_P [|\hat{\theta}_n- \theta(P)| > \epsilon] \rightarrow 0 \quad \mathrm{as} \: n \rightarrow \infty \: \mathrm{for} \: \mathrm{every} \: \epsilon > 0, P \in \mathcal{M}.
\]
A formal statement of the conditionality principle
Approximate ancillarity
不想看.