摘要: 一、C4.5决策树概述 C4.5决策树是ID3决策树的改进算法,它解决了ID3决策树无法处理连续型数据的问题以及ID3决策树在使用信息增益划分数据集的时候倾向于选择属性分支更多的属性的问题。它的大部分流程和ID3决策树是相同的或者相似的,可以参考我的上一篇博客:https://www.cnblogs 阅读全文
posted @ 2018-09-13 08:51 DawnSwallow 阅读(6465) 评论(0) 推荐(2) 编辑
摘要: 一、ID3决策树概述 ID3决策树是另一种非常重要的用来处理分类问题的结构,它形似一个嵌套N层的IF…ELSE结构,但是它的判断标准不再是一个关系表达式,而是对应的模块的信息增益。它通过信息增益的大小,从根节点开始,选择一个分支,如同进入一个IF结构的statement,通过属性值的取值不同进入新的 阅读全文
posted @ 2018-08-12 08:33 DawnSwallow 阅读(4982) 评论(0) 推荐(1) 编辑
摘要: 一、前言 1、ocr概述 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转 阅读全文
posted @ 2018-08-08 01:03 DawnSwallow 阅读(2358) 评论(0) 推荐(0) 编辑
摘要: 一、KNN概述 K-(最)近邻算法KNN(k-Nearest Neighbor)是数据挖掘分类技术中最简单的方法之一。它具有精度高、对异常值不敏感的优点,适合用来处理离散的数值型数据,但是它具有 非常高的计算复杂度和空间复杂度,需要大量的计算(距离计算)。 它的工作原理是:如果已经给定一个带有标签( 阅读全文
posted @ 2018-08-06 14:50 DawnSwallow 阅读(1414) 评论(0) 推荐(0) 编辑