【机器学习】从分类问题区别机器学习类型与初步介绍无监督学习算法 PAC

如果要对硬币进行分类，我们对硬币根据不同的尺寸重量来告诉机器它是多少面值的硬币这种对应的机器学习即使监督学习，那么如果我们不告诉机器这是多少面额的硬币，只有尺寸和重量，这时候让机器进行分类，希望机器对不同种类的硬币分类，这种机器学习方式就是无监督学习。可以从下图看出，监督学习，根据颜色（面值）可以得出不同种类，而无监督学习也可根据所样例在的不同区域对样例进行分类。

根据聚类分组clustering: {xn} -> cluster(x)

根据密度分组density estimation{Xn}->density(x)

根据离群值分组outlier detection{Xn}-> unusual(x)

是否告诉机器硬币的面额，可以分类为监督学习，半监督学习，无监督学习（告知硬币面额的用彩色标出，未告知的用蓝色标出）

总结一下学习模式的区别

第二个例子：罐子取弹珠问题

现在假设一个罐子里有n个弹珠，分别是绿色与橙色，那么如何得出取绿色（橙色）的概率，现在设真实概率橙色为μ，而我们目前假设从中取出一部分弹珠，得出的橙色概率为v,那么我要做的就是让v和μ尽可能的接近，

这里引出新的算法 PAC：可能近似正确（probably approximately correct，PAC）学习模型

假定数据按照某概率分布P从X中随机产生，一般，D可为任意分布，并且它对学习型算法是未知的。对于P，所要求的是它的稳定性，即该分布不会随时间变化（不然我们就没有学习的意义了）。训练数据的由P分布随机抽取而产生x，然后x及其目标值（可以理解为y，标签）被提供给学习器
学习器在学习目标函数时考虑可能假设的集合H。
在观察了一系列训练数据后，学习器需要从假设集合H中得到最终的假设g，这是对未知的符合D分布的理想模型f的估计。
最后，我们通过精心挑选出来的假设g对X中新的数据的性能来评估训练器。

学习过程如下图所示：