分类与监督学习，朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。
简述分类与聚类的联系与区别。
简述什么是监督学习与无监督学习。


区别：分类：我们是知道这个数据集是有多少种类的，然后对它们分类归纳。比如对一个学校的在校大学生进行性别分类，我们会下意识很清楚知道分为“男”,“女”。
     聚类：对数据集操作时，我们是不知道该数据集包含多少类，我们只能通过它们的相似度将数据集中归纳在一起，这就是聚类。因而使得同一个簇（或类）中的对象之间具有较高的相似性，而不同簇中的对象具有较高的相异性。

联系：分类和聚类都是对数据归纳整理的一种方法。

监督学习（supervised learning）：通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力。 
无监督学习（unsupervised learning）：我们事先没有任何训练数据样本，需要直接对数据进行建模。

2.朴素贝叶斯分类算法 实例
利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。
有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数
目标分类变量疾病：–心梗–不稳定性心绞痛
新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7)
最可能是哪个疾病？
上传演算过程。

3.编程实现朴素贝叶斯分类算法

利用训练数据集，建立分类模型。

输入待分类项，输出分类结果。

可以心脏情患者的临床数据为例，但要对数据预处理。

from sklearn.datasets import load_iris
iris=load_iris()
from sklearn.naive_bayes import GaussianNB
gnb=GaussianNB() #模型
gnb.fit(iris.data,iris.target) #训练
gnb.predict([[5.5,2.0,4.5,1.3]]) #分类

posted @ 2018-11-16 21:06 何美玲阅读(185) 评论(0) 收藏举报

何美玲

分类与监督学习，朴素贝叶斯分类算法

公告