Chapter 11 Why Model ?

Hern\(\'{a}\)n M. and Robins J. Causal Inference: What If.

前10章介绍了一些基本概念, 从这一章开始, 将通过模型进一步分析.

11.1 Data cannot speak for themselves

我们要估计\(\mathbb{E}[Y|A=a]\), 但是可能由于数据有限, 或者\(A\)甚至是一个连续的变量, 则我们没有办法对每一个\(a\)进行估计.
这厮我们可以引入模型, 比如假设\(\mathbb{E}[Y|A=a]=\theta_0 + \theta_1 A\), 然后去估计\(\hat{\theta}_0, \hat{\theta}_1\).

11.2 Parametric estimators of the conditional mean

11.3 Nonparametric estimators of the conditional mean

\(A \in \{0, 1\}\)的时候, 我们可以发现:

\[\mathbb{E}[Y|A=0] = \theta_0, \\ \mathbb{E}[Y|A=1] = \theta_0 + \theta_1. \]

我们的有参模型这个时候就相当于是无参模型.

11.4 Smoothing

实际上, 我们可以把我们的模型假设得更加复杂一点:

\[\mathbb{E}[Y|A] = \theta_0 + \theta_1A + \theta_2A^2. \]

一个很自然的结论是, 这种线性模型, 参数越少模型越光滑.

The bias-variance trade-off

一般来说, 选择复杂的模型会有更小的bias, 但是又更大的variance.

Fine Point

Fisher consistency

That is, an estimator of a population quantity that,
when calculated using the entire population rather than a sample,
yields the true value of the population parameter.

就是说一个模型, 用了全部的population就能获得正确的参数, 那么这个模型就是非参数模型.
就像均值一样?

Model dimensionality and the relation between frequentist and Bayesian intervals

Technical Point

A taxonomy of commonly used models

\[g \{\mathbb{E}[Y|X]\} = \sum_{i=0}^p \theta_i X_i. \]

posted @ 2021-03-07 19:52  馒头and花卷  阅读(65)  评论(0编辑  收藏  举报