经验误差，泛化误差

经验误差，泛化误差

前言

我们在上篇博文《机器学习模型的容量，过拟合与欠拟合》中曾经提到过模型的泛化问题，指的就是描述一个模型在未见过的数据中的表现能力。这里再提出了，用于比较经验误差。
联系方式：
e-mail: FesianXu@163.com
QQ: 973926198
github: https://github.com/FesianXu

假设我们现在有数据集D={(x 1 ,y 1 ),(x 2 ,y 2 ),⋯,(x i ,y i )},i=N ,其中N 是数据集的大小，x i 为数据的属性1，y i 为标签。假设有y i ∈Y ，x i ∈X,i=1,2,⋯,N ，假设X 中的所有样本都满足一个隐含的，未知的分布D ，也就是说D 中的所有样本都是从D 中独立同分布(i.i.d)地采样的。
然后假设h 是算法L 学习到的从X 到Y 的映射，y=h(x) ，并且有h∈H ，其中H 为算法L 的假设空间。我们可以定义映射h 的泛化误差(generalization error):

E (h; D) = P x \sim D (h (x) \neq y) (1.1)

因为我们无法观察到整个分布

D ，只能观察到独立同分布采样后的

D ，因此我们需要定义经验误差(empirical error):

E^(h; D) = 1 N \sum i = 1 N 1 (h (x i) \neq y i), x i \in D (1.2)

其中的

1(⋅) 表示当条件符合时输出1，否则输出0。由于

D 是

D 的独立同分布采样，因此

h 的经验误差的期望等于泛化误差。

引用：

数据的属性指的是数据的最原始的特征，比如图片的原始像素点，而数据的特征大多指的是属性经过特定的操作的数据，如图片的像素点经过CNN卷积之后得到的特征。广义来说，数据的属性和特征没有区别。 ↩

posted @ 2017-12-07 22:17 FesianXu 阅读(304) 评论(0) 收藏举报

刷新页面返回顶部

机器学习杂货铺二号店

一号店地址是https://blog.csdn.net/LoseInVain

经验误差，泛化误差

前言

引用：

公告