2019 年 2月 26 日随笔档案 - 缄默1996

2019年2月26日

摘要：有看过很多次的决策树算法，但是每次都是很容易忘记怎么去计算各种算法的度量值，再看一遍书，再归纳一遍 ID3，是求最大信息增益对于样本D，类别数为K，数据集D的熵为 Ck是样本集D中属于第k类的样本子集，|Ck|表示该子集的元素个数，|D|表示样本集合的元素个数然后计算某个特征A对于数据集D的经验阅读全文

posted @ 2019-02-26 14:17 缄默1996 阅读(418) 评论(0) 推荐(0) 编辑

特征工程

摘要：一、结构化数据，看作关系型数据库的一张表，每列都有清晰的定义，包含了数值型、类别型两种类型，每一行数据代表一个样本的信息二、非结构化数据，包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没有清洗的类别定义，而且每条数据的大小各不相同 1、特征归一化对数值类型的特征做归一化阅读全文

posted @ 2019-02-26 13:37 缄默1996 阅读(113) 评论(0) 推荐(0) 编辑

缄默1996

公告