机器学习中的标签数据和无标签数据
今天在数据人网上看到一篇文章。区分监督学习和无监督学习,监督学习的数据就是有标签数据,无监督学习的数据就是无标签数据。这是我的理解,欢迎指教。
原文链接http://www.shujuren.org/article/62.html 原文如下
监督式和非监督式机器学习算法
作者 Frankchen
什么是监督式机器学习,它与和非监督式机器学习有什么关联呢?
本文中你将了解到监督式学习,非监督式学习和半监督式学习在阅读本文之后你将知道如下知识:
- 有关分类和回归的监督式学习问题
- 关于聚类和关联非监督式学习问题
- 用于监督式和非监督式问题的Example算法案例
- 半监督式学习介于监督式和非监督式学习之间
让我们开始吧。
监督式机器学习
实际应用中的机器学习在大部分情况下我们都会使用监督式学习。
监督式学习指的是你拥有一个输入变量(x)(x)和一个输出变量(Y)(Y),使用某种算法去学习从输入到输出的映射函数
Y=f(X)Y=f(X)
我们的目标是足够好的近似映射函数,以便当我们在新的数据$(x)$上可以预测输出变量(Y)(Y)。
这种学习方式就称之为监督式学习,因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案,而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。
监督式学习问题可以进一步被分为回归和分类问题
- 分类:分类问题指的是当输出变量属于一个范畴,比如“红色”和“蓝色”或者“生病”和“未生病”。
- 回归:回归问题指的是输出变量是一个实值,比如“价格”和“重量”
还有一些种类的问题建立在分类和回归之上,包括推荐问题和时序预测
一些流形的监督式机器学习算法的例子:
回归问题中的线性回归
分类和回归问题中的随机森林
分类问题中的支持向量机
非监督式机器学习
非监督式学习指的是我们只拥有(X)(X)但是没有相关的输出变量。
非监督式学习的目标是对数据中潜在的结构和分布建模,以便对数据作更进一步的学习。
这种学习方式就称为非监督式学习,因为其和监督式学习不同,对于学习并没有确切的答案和学习过程也没有教师监督。算法独自运行以发现和表达数据中的有意思的结构。
非监督式学习问题可以进一步分为聚类问题和关联问题
- 聚类问题:聚类学习问题指的是我们想在数据中发现内在的分组,比如以购买行为对顾客进行分组。
- 关联问题:关联问题学习问题指的是我们想发现数据的各部分之间的联系和规则,例如购买X物品的顾客也喜欢购买Y物品。
一些流形的非监督式学习算法的例子:
- 聚类问题的k-means算法
- 关联规则学习问题中的Apriori算法
半监督式机器学习
当我们拥有大部分的输入数据(X)(X)但是只有少部分的数据拥有标签(Y)(Y),这种情形称为半监督式学习问题
半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如:照片分类,但是只有部分照片带有标签(如,狗、猫和人),但是大部分照片都没有标签。
许多现实中的机器学习问题都可以归纳为这一类。因为对数据打标签需要专业领域的知识,这是费时费力的。相反无标签的数据和收集和存储起来都是方便和便宜的。
我们可以使用非监督式学习的技术来发现和学习输入变量的结构。
我们也可以使用监督式学习技术对无标签的数据进行标签的预测,把这些数据传递给监督式学习算法作为训练数据,然后使用这个模型在新的数据上进行预测。
总结
从本文你可以了解到监督式,非监督式和半监督式学习的不同之处。你现在直到如下:
- 监督式学习:所有的数据都有标签并且算法从输入数据学习如何预测输
- 非监督式学习:所有的数据都是无标签的并且算法从输入数据中学习数据固有的结构
- 半监督式学习:部分数据是有标签的,但大部分没有标签,是一种监督式和非监督式学习的手段都可以使用的学习方法。
原文链接:Supervised and Unsupervised Machine Learning Algorithms