07-机器学习分类
一.第一种分类方式(有无标签来分):
1.有监督学习:用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知的样本,此种方法被称为有监督学习,是最常用的一种机器学习的方法.是从标签化训
练数据集中推断出模型的机器学习任务
有监督学习的不同方式:
判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别模型有:线性回归,决策树,支持向量机SVM,K近邻,神经网络等
生成式模型(Generative Model): 对联合分布概率p(x,y)进行建模,常见的生成式模型有:隐马尔可夫模型,朴素贝叶斯模型,高斯混合模型GMM,LDA等
两种模型的区别与联系:
生成式模型更普适;判别式模型更直接,目标性更强
生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的差异性,寻找的是分类面
由生成式模型可以产生判别式模型,但是由判别式模型没法形成生成式模型
2.无监督学习:与监督学习相比,无监督学习的训练集中没有认为的标注结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内部结构(效果不是很好)
无监督学习师徒学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类,降维,文本处理(特征抽取)等
无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息
3.半监督学习(SSL):考虑如何利用少量的样本标注和大量的未标注样本进行训练和分类的问题,是监督学习和无监督学习的结合
(在此不做介绍)
二.第二种分类方式(通过功能来分):
1.分类(Y的类型为整型):通过分类模型,将样本数据集中的样本映射到某个给定的类别中--有监督
2.聚类:通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
3.回归(可认为y是浮点型):反映了样本数据集中的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
4.关联规则:获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率