摘要: 有看过很多次的决策树算法,但是每次都是很容易忘记怎么去计算各种算法的度量值,再看一遍书,再归纳一遍 ID3,是求最大信息增益 对于样本D,类别数为K,数据集D的熵为 Ck是样本集D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示样本集合的元素个数 然后计算某个特征A对于数据集D的经验 阅读全文
posted @ 2019-02-26 14:17 缄默1996 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 一、结构化数据,看作关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种类型,每一行数据代表一个样本的信息 二、非结构化数据,包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清洗的类别定义,而且每条数据的大小各不相同 1、特征归一化 对数值类型的特征做归一化 阅读全文
posted @ 2019-02-26 13:37 缄默1996 阅读(113) 评论(0) 推荐(0) 编辑