监督学习,无监督学习和半监督学习

概念:监督学习、无监督学习与半监督学习

监督学习 : supervised learning 
无监督学习 : unsupervised learning 
半监督学习 : semi-supervised learning

2 、 概念

监督学习:用一部分已知分类、有标记的样本来训练机器后,让它用学到的特征,对没有还分类、无标记的样本进行分类、贴标签。

一句话概括:      给定数据,预测标签。

总之,监督学习中只要输入样本集,机器就可以从中推演出制定目标变量的可能结果.如协同过滤推荐算法,通过对训练集进行监督学习,并对测试集进行预测,从而达到预测的目的.

无监督学习:即非监督学习,是实现没有有标记的、已经分类好的样本,需要我们直接对输入数据集进行建模,例如聚类,最直接的例子就是我们常说的“人以群分,                          物以类聚”。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。至于那一类究竟是什么,我们并不                        关心。

一句话概括:给定数据,寻找隐藏的结构

以上两者的区别 : 监督学习则只利用标记的样本集进行学习,而无监督学习只利用未标记的样本集。

半监督学习:有两个样本集,一个有标记,一个没有标记。综合利用有类标的样本( labeled sample)和没有类标的样本( unlabeled sample),来生成合适的分类                          函数。 
半监督学习出现的背景是 :实际问题中,通常只有少量的有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能                                                 鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。

3、思考

监督学习主要是根据已有标记,进行分类,区分; 
无监督学习主要是用相似度,进行聚类,归类; 
半监督学习一般结合了分类与聚类的思想; 
还有一点,这里的样本标记,都是人为事先进行标记的,然后进行使用。

有些情况比如无法提供训练数据样本或者提供训练数据样本的成本太高的话,或许我们就应该采取无监督学习的策略了。

 

posted @ 2017-10-10 12:13  sunmarvell  阅读(1598)  评论(0编辑  收藏  举报