分类与监督学习,朴素贝叶斯分类算法
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 区别:分类:我们是知道这个数据集是有多少种类的,然后对它们分类归纳。比如对一个学校的在校大学生进行性别分类,我们会下意识很清楚知道分为“男”,“女”。 聚类:对数据集操作时,我们是不知道该数据集包含多少类,我们只能通过它们的相似度将数据集中归纳在一起,这就是聚类。因而使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。
联系:分类和聚类都是对数据归纳整理的一种方法。
监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。
无监督学习(unsupervised learning):我们事先没有任何训练数据样本,需要直接对数据进行建模。
2.朴素贝叶斯分类算法 实例 利用关于心脏情患者的临床数据集,建立朴素贝叶斯分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病:–心梗–不稳定性心绞痛 新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7) 最可能是哪个疾病? 上传演算过程。
3.编程实现朴素贝叶斯分类算法 利用训练数据集,建立分类模型。 输入待分类项,输出分类结果。 可以心脏情患者的临床数据为例,但要对数据预处理。
from sklearn.datasets import load_iris
iris=load_iris()
from sklearn.naive_bayes import GaussianNB
gnb=GaussianNB() #模型
gnb.fit(iris.data,iris.target) #训练
gnb.predict([[5.5,2.0,4.5,1.3]]) #分类