ISLR chapter 2 note

$ Y= f(x)+ \epsilon $

$\hat{Y} = \hat{f}(X)$

$E(Y - \hat{Y})^2 = [f(X) - \hat f (X)]^2 + Var(\epsilon)$

如何估计 $f$ ?

参数方法：
1. 先构建一个 $f$ 的模型，譬如多项式： $f(X) = \beta_0 + \beta_1X_1 + \beta_2 X_2^2+\cdots$
2. 使用数据训练或拟合模型，估计参数
模型复杂 —— overfitting && flexible，

模型简单 —— restictive && 选择的模型与真实的 $f$ 差距较大
非参数方法：$f$ 的估计尽可能接近给定的数据（薄板样条）
优缺点：参数方法开始就假定了 $f$ 的形式，可能与真实相差较大，但计算量较小，适合小数据。而非参数方法能更精准的预测 $f$ 的数值，但使用数据较多

准确性与解释性

模型越简单，自由度低，解释性越强，很容易根据模型即可得知因变量与自变量的关系，在需要知道正负相关性性，而不需要知道具体的数值时，使用简单的模型更好。而模型越复杂，自由度高，解释性越弱，但准确性会有所提高。

监督型和非监督型模型

监督型：需要输出一个结果，不管定性（分类）还是定量，推断还是预测。

非监督型：需要对一堆给定的数据，分析其内在的结构，

评估模型准确性

定量问题（回归）

MSE ：均方误差 $MSE = \frac1n \sum(y_i - \hat f (x_i))^2$ . 评判拟合的好坏程度，越小越好。
training MSE < test MSE
训练集MSE小，测试集MSE大，则过拟合
$E(y_0 - \hat{f}(x_0))^2 = Var(\hat f (x_0)) + [Bios(\hat f (x_0))]^2 + Var(\epsilon)$

该公式求出测试集的MSE的期望，第一项是预测的方差，表示若更换训练集，预测函数的变化程度（模型固定求参数）。理想情况下，更换训练集，所获得的预测函数 $\hat f$ 区别不大。但如果拟合模型自由度过高，则稍微改变训练集就可能产生预测函数较大的变化。即，自由度越高，方差越大。

第二项是模型的偏差，由建模的不确定性导致，比如真实问题很复杂，却使用简单的模型，一般模型自由度越高，偏差会越小，但某个点之后，增加自由度导致的偏差减小会比较平缓。

第三项是不可消除的误差，与模型无关。

因此，需要根据方差和偏差，在自由度的选取中取一个平衡，使得二者之和最小。

定性问题（分类）

$\frac1n \sum I(y_i \not= \hat y_i)$ : 用来评判分类的好坏程度，越小越好
贝叶斯分类：将观测值归类到概率最大的类别，即：选择类别 $j$ 使得 $ Pr(Y=j|X=x_0)$最大。
K最近邻法：使用的贝叶斯分类的模型为： $ Pr(Y=j|X=x_0) = \frac1K \sum I(y_i=j)$ . 邻近的K个值归类最多的一类即为检测值的归类

posted @ 2017-09-07 17:44 究竟啥名没人占用阅读(192) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部