ISLR chapter 2 note
$ Y= f(x)+ \epsilon $
$\hat{Y} = \hat{f}(X)$
$E(Y - \hat{Y})^2 = [f(X) - \hat f (X)]^2 + Var(\epsilon)$
如何估计 $f$ ?
-
参数方法:
- 先构建一个 $f$ 的模型,譬如多项式: $f(X) = \beta_0 + \beta_1X_1 + \beta_2 X_2^2+\cdots$
- 使用数据训练或拟合模型,估计参数
模型复杂 —— overfitting && flexible,
模型简单 —— restictive && 选择的模型与真实的 $f$ 差距较大
-
非参数方法:$f$ 的估计尽可能接近给定的数据 (薄板样条)
-
优缺点: 参数方法开始就假定了 $f$ 的形式,可能与真实相差较大,但计算量较小,适合小数据。而非参数方法能更精准的预测 $f$ 的数值,但使用数据较多
准确性与解释性
模型越简单,自由度低,解释性越强,很容易根据模型即可得知因变量与自变量的关系,在需要知道正负相关性性,而不需要知道具体的数值时,使用简单的模型更好。而模型越复杂,自由度高,解释性越弱,但准确性会有所提高。
监督型和非监督型模型
监督型: 需要输出一个结果,不管定性(分类)还是定量,推断还是预测。
非监督型: 需要对一堆给定的数据,分析其内在的结构,
评估模型准确性
定量问题(回归)
-
MSE : 均方误差 $MSE = \frac1n \sum(y_i - \hat f (x_i))^2$ . 评判拟合的好坏程度,越小越好。
-
training MSE < test MSE
-
训练集MSE小,测试集MSE大, 则过拟合
-
$E(y_0 - \hat{f}(x_0))^2 = Var(\hat f (x_0)) + [Bios(\hat f (x_0))]^2 + Var(\epsilon)$
该公式求出测试集的MSE的期望,第一项是预测的方差,表示若更换训练集,预测函数的变化程度(模型固定求参数)。理想情况下,更换训练集,所获得的预测函数 $\hat f$ 区别不大。但如果拟合模型自由度过高,则稍微改变训练集就可能产生预测函数较大的变化。即,自由度越高,方差越大。
第二项是模型的偏差,由建模的不确定性导致,比如真实问题很复杂,却使用简单的模型,一般模型自由度越高,偏差会越小,但某个点之后,增加自由度导致的偏差减小会比较平缓。
第三项是不可消除的误差,与模型无关。
因此,需要根据方差和偏差,在自由度的选取中取一个平衡,使得二者之和最小。
定性问题(分类)
- $\frac1n \sum I(y_i \not= \hat y_i)$ : 用来评判分类的好坏程度,越小越好
- 贝叶斯分类: 将观测值归类到概率最大的类别, 即 : 选择类别 $j$ 使得 $ Pr(Y=j|X=x_0)$最大。
- K最近邻法: 使用的贝叶斯分类的模型为: $ Pr(Y=j|X=x_0) = \frac1K \sum I(y_i=j)$ . 邻近的K个值归类最多的一类即为检测值的归类