机器学习第十次作业
1.理解分类与监督学习、聚类与无监督学习。
简述分类与聚类的联系与区别。
对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的,比如对一个学校的在校大学生进行性别分类,我们会下意识很清楚知道分为“男”,“女”
对于聚类来说,在对数据集操作时,我们是不知道该数据集包含多少类,我们要做的,是将数据集中相似的数据归纳在一起。比如预测某一学校的在校大学生的好朋友团体,我们不知道大学生和谁玩的好玩的不好,我们通过他们的相似度进行聚类,聚成n个团体,这就是聚类。
简述什么是监督学习与无监督学习。
监督学习是从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。
无监督学习是指输入数据没有被标记,也没有确定的结果。
2.朴素贝叶斯分类算法
A{<7},B{KILLP=1},C{男},D{饮酒},E{吸烟},F{<70}
P(A)=6/20=0.3
P(B)=10/20=0.5
P(C)=8/20=0.4
P(D)=4/20=0.2
P(E)=9/20=0.45
P(F)=5/20=0.25
去掉了第六条和第八条无关数据
P(ABCDE)=0
P(BCDEF)=1/18=0.056
P(ACDEF)=0
P(ABDEF)=0
P(ABCEF)=0
P(ABCDF)=0
初略推测为心梗
3.使用朴素贝叶斯模型对iris数据集进行花分类。
尝试使用3种不同类型的朴素贝叶斯:
- 高斯分布型
- 多项式型
- 伯努利型
并使用sklearn.model_selection.cross_val_score(),对各模型进行交叉验证。
代码
结果