摘要: 本文将具体介绍,当我们的数据导入到代码里时,数据有的可能是中文、数字、时间等等,对于计算机来说肯定十分头大,数据还会有缺失、不统一等问题,所以需要对数据进行标准化,也叫特征工程。 这样的好处主要有两个,一是可以提升模型的精度,二是可以提升模型的收敛速度 一、归一化 \ 标准化 sklearn的pre 阅读全文
posted @ 2020-03-31 16:34 站在云端看世界 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 决策树,当下比较流行的有三种分类器, C4.5, ID3, CART, 不过大同小异,主要的区别就是选择的目标函数不同,ID3使用的是信息增益,C4.5使用信息增益率,CART使用的是Gini系数。 ,具体的原理就不说了,去翻翻别的博主吧,下面给出本人测试的小demo,帮助各位学者更快入手。 # - 阅读全文
posted @ 2020-03-31 16:28 站在云端看世界 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 随机森林就是用多个决策树分类器,共同预测,投票最多的那个分类就把预测数据划分到那个分类,别的不多说了,代码附上如下, # -*- coding:utf-8 -*- import numpy as np from sklearn import datasets, ensemble from sklea 阅读全文
posted @ 2020-03-31 15:03 站在云端看世界 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯为根据贝叶斯定理,假设每个特征之间相互独立,然后根据每个特征值所属的概率最大的分类相加,最后得出哪个分类的概率可能性最大,就把预测的数据划分到那个类别下,对实现原理感兴趣的小伙伴,可以翻翻其他的博主的文章看看。 附上本人测试的代码,如下, # -*- coding:utf-8 -*- # 阅读全文
posted @ 2020-03-31 14:59 站在云端看世界 阅读(160) 评论(0) 推荐(0) 编辑
摘要: KNN算法为按距离进行分类的,对于已知的分类,根据欧式距离,最靠近那个分类就被预测为那个分类。 本文只是简单展示一下实现代码,具体的特征和分类,还得自己根据实际场景去调整。 在开始之前注意看看导入的包是否都存在,如不存在的化,请先安装相应的包 # -*- coding:utf-8 -*- impor 阅读全文
posted @ 2020-03-31 14:56 站在云端看世界 阅读(365) 评论(0) 推荐(0) 编辑