熵和信息增益

(老师给出的例子,感觉非常直观,记录一下)

概念


在这里插入图片描述
信息增益
在这里插入图片描述

任务

· 使用解析特征化挖掘Big-University研究生的一般特征描述
· 给定属性: name, gender, major, birth_place, birth_date, phone#, and gpa
· Gen(ai) = ai上的概念层
· Ui = ai属性解析阈值
· Ti = ai 的属性归纳阈值
· R = 属性相关阈值

数据收集

· 目标类:研究生
· 对比类:本科生
· 使用Ui进行解析归纳

删除属性

删除 name and phone#

属性概化

概化 major, birth_place, birth_date and gpa

积累 counts值

候选属性

gender, major, birth_country, age_range and gpa
在这里插入图片描述

相关分析

计算给定样本分类所需要的期望信息
在这里插入图片描述

计算每一个属性的熵值 : e.g. major
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

——来自武汉大学洪亮老师的课堂:数据分析与管理

posted @ 2022-11-12 11:33  Avici_Fox  阅读(1)  评论(0编辑  收藏  举报