随笔分类 - 机器学习实战的自定义代码

决策树_信息熵

摘要：决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型决策树的一般流程(1) 收集数据：可以使用任何方法。(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。(3) 分析数据：可以阅读全文

posted @ 2020-09-08 10:55 小小喽啰阅读(634) 评论(0) 推荐(0)

KNN_01

摘要：最简单的KNN分类：即是每个测试数据逐个去减训练集数据，使用的是欧氏距离，然后选取k个距离最小的数据作为邻居，看看这几个邻居属于那种类别最多，就属于哪种类别 k-近邻算法优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。 k-近邻算法的一般阅读全文

posted @ 2020-09-08 10:48 小小喽啰阅读(229) 评论(0) 推荐(0)