Lecture 2 -- 理想与现实 (从宝可梦和数码宝贝的分类浅谈机器学习原理)

1. Case Study

观察上图，可以看到，数码宝贝的线条较为复杂，而宝可梦的线条较为简单，画风偏儿童~

我们可以对不同的图像做edge detection，用图像中白色像素点的个数对宝可梦和数码宝贝进行分类

我们可以定义一个简单的模型进行分类，其中h是阈值，如果一张图像经过edge detection后，其白色像素点的数量小于h，那么我们可以判定其为宝可梦，反之为数码宝贝

这里的h为模型的参数，我们将其取值设定为有限值{1,2,3,...,10000},也就是说，我们的function set中可以选择的function是有限的

假设我们可以搜集到宇宙中所有的数码宝贝和宝可梦，将它们构成数据集D_all，在D_all数据集上能够使得loss最小的h称为h^all，h^all应用于D_all上的loss即为理想；

而现实中，我们不可能找到这样的D_all，我们往往是从D_all中采样出D_train，进而找到能在D_train上loss最低的h^train_，我们期望在有限的数据集上找到的参数h^train，其应用于D_all上的loss(现实)也能够很小，也就是说，我们期望理想和现实越接近越好！

什么样的训练数据能让理想和现实很接近呢？

⭐任意的h，将它应用于D_train的loss和将它应用于D_all的loss的差值≤δ/2(一个很小的数)，我们就认为这样的D_train是好的D_train，能够让理想和现实接近的D_train！

具体的推导过程如下：

我们已经知道了一个好的训练数据集应该满足的条件，那么我们采样出坏的数据集的概率有多大呢？

如果一个训练数据集是坏的，那么至少存在一个h，使得|L(h,D_train)-L(h,D_all)|＞ε

根据上图的推导过程，我们想要理想与现实更接近，我们就需要更多的训练数据集或者更小的function set，这似乎是一个矛盾，因为较小的function set或许会使理想崩坏，即使得L(h^all,D_all)很大，这时候即使现实与理想很接近，那也无济于事！

我们如何能让理想不会崩坏(使模型拥有足够的复杂程度[VC-dimension])，并且现实和理想又能很接近？鱼和熊掌可以兼得吗？ → Yes，deep learning！

END

posted @ 2023-07-21 14:47 Peg_Wu 阅读(24) 评论(0) 编辑收藏举报

刷新页面返回顶部