熵和信息增益
(老师给出的例子,感觉非常直观,记录一下)
概念
熵
信息增益
任务
· 使用解析特征化挖掘Big-University研究生的一般特征描述
· 给定属性: name, gender, major, birth_place, birth_date, phone#, and gpa
· Gen(ai) = ai上的概念层
· Ui = ai属性解析阈值
· Ti = ai 的属性归纳阈值
· R = 属性相关阈值
数据收集
· 目标类:研究生
· 对比类:本科生
· 使用Ui进行解析归纳
删除属性
删除 name and phone#
属性概化
概化 major, birth_place, birth_date and gpa
积累 counts值
候选属性
gender, major, birth_country, age_range and gpa
相关分析
计算给定样本分类所需要的期望信息
计算每一个属性的熵值 : e.g. major
——来自武汉大学洪亮老师的课堂:数据分析与管理